<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>运维 on Fain的Blog</title><link>https://Koas-W.github.io/tags/%E8%BF%90%E7%BB%B4/</link><description>Recent content in 运维 on Fain的Blog</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Mon, 27 Apr 2026 18:32:35 +0800</lastBuildDate><atom:link href="https://Koas-W.github.io/tags/%E8%BF%90%E7%BB%B4/index.xml" rel="self" type="application/rss+xml"/><item><title>Femtotron开发日志 #3 逸闻：记一次掉卡故障的排查和分析</title><link>https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/</link><pubDate>Mon, 27 Apr 2026 18:32:35 +0800</pubDate><guid>https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/</guid><description>&lt;p&gt;人生中第一次遭遇了掉卡，看来现代计算卡的可靠性真是越来越低了啊，黄皮子真是闹麻了。起因是测试脚本的时候突然发现掉驱动了，无论如何修改也没法跑起来，&lt;code&gt;nvidia-smi&lt;/code&gt;也无法看出有任何程序在运行。经过简单的排查之后，定位到是GPU2出现了问题，导致整个驱动因为拓扑发现有问题无法正常运行。在这里简单的记录一下不同命令的反馈结果和表现，供大家参考，也让没见过的小伙伴看看它大概是什么样子：&lt;/p&gt;
&lt;p&gt;输入命令：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;nvidia-smi nvlink --status # NVLink 链路实际状态
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;终端显示：&lt;/p&gt;
&lt;p&gt;&lt;img alt="nvlinkdown" class="gallery-image" data-flex-basis="730px" data-flex-grow="304" height="286" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/nvlinkdown.png" srcset="https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/nvlinkdown_hu_b373a23bef06b54.png 800w, https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/nvlinkdown.png 870w" width="870"&gt;&lt;/p&gt;
&lt;p&gt;输入命令：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;sudo dmesg -T | grep -iE &amp;#39;nvidia|nvrm|xid|gsp|nvswitch&amp;#39; | tail -100 &amp;gt; /tmp/dmesg_nv.txt
cat /tmp/dmesg_nv.txt
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;终端显示：&lt;/p&gt;
&lt;p&gt;&lt;img alt="error" class="gallery-image" data-flex-basis="798px" data-flex-grow="332" height="414" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/error.png" srcset="https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/error_hu_b53ecaba09065e54.png 800w, https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/error.png 1378w" width="1378"&gt;&lt;/p&gt;
&lt;p&gt;输入命令：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;nvidia-smi topo -m
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;终端显示：&lt;/p&gt;
&lt;p&gt;&lt;img alt="topo" class="gallery-image" data-flex-basis="1353px" data-flex-grow="563" height="232" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/topo.png" srcset="https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/topo_hu_b61320ac3a46dd9c.png 800w, https://Koas-W.github.io/posts/20260427-minornoteofgpuerror/topo.png 1308w" width="1308"&gt;&lt;/p&gt;
&lt;p&gt;因此定位到应该是GPU2的故障：实际上，应该是因为NVLink的链路层出现了问题，而导致fabric Manager作为整体无法拉起，从而导致整个节点全面爆炸，什么都跑不了了。&lt;/p&gt;
&lt;p&gt;这一bug的问题在于其影响力大于一张卡本身的故障或者，其一张卡的故障会导致整个节点的八张卡无法正常使用，甚至单卡也一样：因为CUDA的启动本身就无法完成。遇到类似情况的读者也可以尝试类似的排查方法。&lt;/p&gt;</description></item></channel></rss>