我这显卡是不是坏了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 535 天前的主题，其中的信息可能已经有所发展或是发生改变。

$ nvidia-smi
Unable to determine the device handle for GPU0000:01:00.0: Unknown Error

之前用一个 7b 的模型做推理，连续用了 20 多个小时。后面就不间断出现这个错误了，但是一重启就好了，是不是显卡硬件坏了？

显卡

错误

重启

17 条回复 • 2024-08-12 19:42:15 +08:00

GoRoad

2024 年 8 月 12 日

不是工业级的显卡，长时间用可能会出现各种问题，要是重启后能正常，那大概率还没坏可能是过热之类了

sty

2024 年 8 月 12 日

@GoRoad 一周多了，每天都得重启，更新了一下驱动也没用。有没有可能是某些区块坏了，要跑一段时间才能碰到坏的区块

DigitalG

2024 年 8 月 12 日

“不间断”，是间隔多久？重启就好的话，我遇到过，有可能是 nvidia driver 自动更新导致的。可以看看 driver 版本是不是比那了，或者去系统日志里看看。再配置关闭自动更新。

HojiOShi

2024 年 8 月 12 日

用的啥显卡，是不是矿卡啊。

sty

2024 年 8 月 12 日

@DigitalG 坏了之后，driver 我自己更新过了。在使用的时候没报错，比如我跑 3 个小时的训练，能跑完。反而是空闲的时候就报上面这个错。一天 1 到 2 次吧，每天都有

sty

2024 年 8 月 12 日

@HojiOShi 3090ti ，买了三年多了不咋用，最近 3 个月开始用的

cinlen

2024 年 8 月 12 日

dmesg 看看内核日志有无异常

rickiey

2024 年 8 月 12 日

监控下温度,频率,显存这些数据,还有功率

sty

2024 年 8 月 12 日

@cinlen [ 2.018550] [drm] [nvidia-drm] [GPU ID 0x00000100] Loading driver
[ 369.857712] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 493.216012] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 1537.808965] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 1764.689999] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 1766.588211] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 1775.551022] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
老哥帮忙看下

sty

2024 年 8 月 12 日

@rickiey nvidia-smi
```
Mon Aug 12 15:30:33 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.107.02 Driver Version: 550.107.02 CUDA Version: 12.4 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3090 Ti Off | 00000000:01:00.0 Off | Off |
| 30% 41C P0 N/A / 450W | 1MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
```

cinlen

2024 年 8 月 12 日

在正常和异常时分别执行一下 lspci -s 01:00.0 -nnDk 命令看看这张显卡的驱动名是什么。我有一张 nvidia telsa 温度飙到 90 摄氏度都没出现过你这个问题。

sty

2024 年 8 月 12 日

@cinlen 正常情况下 lspci -s 01:00.0 -nnDk
0000:01:00.0 VGA compatible controller [0300]: NVIDIA Corporation Device [10de:2203] (rev a1)
Subsystem: Device [7377:2000]
Kernel driver in use: nvidia
libkmod: kmod_config_parse: /etc/modprobe.d/blacklist-nouveau.conf line 1: ignoring bad line starting with 'cklist'
Kernel modules: nouveau, nvidia_drm, nvidia

daishuge

2024 年 8 月 12 日 via Android

圈外人，想问一下这种能不能走保修，如果是正规平台买的话，谢谢

lsp7572

2024 年 8 月 12 日

搜了下网上有人碰到，比如电源问题啥的，这个你自己搜索过，或者尝试过没，从问题没看出来试过

sty

2024 年 8 月 12 日

@lsp7572 我能搜到的软件解决办法都试过。这台机器在机房，走流程挺麻烦，如果软件层面解决不了，那就报硬件流程去了

huaijin

2024 年 8 月 12 日

设备管理器，看看显卡驱动是不是损坏了

sweelia

2024 年 8 月 12 日

2080ti 改 22g ，遇到训练几天就中断，提示通讯/io 相关的异常，内核驱动进入了异常状态，只能重启恢复。
大聪明的我以为是驱动兼容性问题，写了个脚本自动重启，自动恢复训练。
然后过了 2 个多星期驱动彻底不认卡了。仔细检查是显存虚了，拆下重焊恢复正常，然后限制最高功率，加散热，目前几个月没再遇到需要重启的情况