Femtotron开发日志 #3 逸闻:记一次掉卡故障的排查和分析

人生中第一次遭遇了掉卡,看来现代计算卡的可靠性真是越来越低了啊,黄皮子真是闹麻了。起因是测试脚本的时候突然发现掉驱动了,无论如何修改也没法跑起来,nvidia-smi也无法看出有任何程序在运行。经过简单的排查之后,定位到是GPU2出现了问题,导致整个驱动因为拓扑发现有问题无法正常运行。在这里简单的记录一下不同命令的反馈结果和表现,供大家参考,也让没见过的小伙伴看看它大概是什么样子:

输入命令:

nvidia-smi nvlink --status     # NVLink 链路实际状态

终端显示:

nvlinkdown

输入命令:

sudo dmesg -T | grep -iE 'nvidia|nvrm|xid|gsp|nvswitch' | tail -100 > /tmp/dmesg_nv.txt
cat /tmp/dmesg_nv.txt

终端显示:

error

输入命令:

nvidia-smi topo -m

终端显示:

topo

因此定位到应该是GPU2的故障:实际上,应该是因为NVLink的链路层出现了问题,而导致fabric Manager作为整体无法拉起,从而导致整个节点全面爆炸,什么都跑不了了。

这一bug的问题在于其影响力大于一张卡本身的故障或者,其一张卡的故障会导致整个节点的八张卡无法正常使用,甚至单卡也一样:因为CUDA的启动本身就无法完成。遇到类似情况的读者也可以尝试类似的排查方法。