V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ajaxgoldfish
V2EX  ›  云修电脑

群晖/PVE/ Linux 系统死机如何最小代价的排查问题,每次运行五天后不定时死机。悬赏一包玉溪,采纳后我会 @,先在此谢过了。

  •  
  •   ajaxgoldfish · 6 天前 · 1493 次点击

    本来攒了个 nas 之后挺高兴的,没想到总是死机,每次死机周期还挺长,已经好几次持续数月了。

    死机现象

    • 硬盘灯不闪,但是亮
    • 路由器显示设备离线
    • 插屏幕和键鼠没用,没反应
    • 电源灯还亮

    硬件

    • 双 16g 内存,粤虎 ddr4 2666
    • cpu 8100t
    • 系统,尝试过 pve ,群晖,这两个均是一样的现象
    • 系统日志,和 dmesge 均没有有效日志,每次死机的日志都是不同的上下位。
    • 电源 150w 。
    • 硬盘 16t hc550

    尝试过的方法

    • 更新 bios 微码
    • 换系统,从 pve 换到物理机直接装群晖
    • 跑 memtest86 测试,均通过

    实在是没招儿了,求助各位专家,如果先换硬件的话先换什么呢

    29 条回复    2024-11-17 23:30:19 +08:00
    alfawei
        1
    alfawei  
       6 天前
    内存条换一个看看

    群晖不管黑白都非常非常稳定
    memorybox
        2
    memorybox  
       6 天前
    第一反应是内存; 两根内存留一根,挨个试试?
    Puteulanus
        3
    Puteulanus  
       6 天前
    蹲一个,我朋友那的 x86 软路由也是隔一段时间随机死,为了避免死机都设置成每天定时重启了,现在比较怀疑的是内存,其次是电源,因为工控机 CPU 取不下来(狗头)
    ajaxgoldfish
        4
    ajaxgoldfish  
    OP
       6 天前
    @memorybox 嗯嗯,目前准备拔一根试试
    ScotGu
        5
    ScotGu  
       6 天前
    早年间把 PCIE3.0*8 的万兆网卡 插到 PCIE3.0 X4 (物理槽是 X8 的),也挂过。
    happyn
        6
    happyn  
       6 天前
    如果是 PVE 的话,我碰上过网卡负载大的时候自动重启的问题,解决方法参考这里:

    https://forum.proxmox.com/threads/e1000-driver-hang.58284/page-8#post-390709
    zhixiao
        7
    zhixiao  
       6 天前
    我之前也有过会死机的情况,后来发现主板纽扣电池没电了,换了个就再也没出现了
    caltong
        8
    caltong  
       6 天前
    内存没问题的话就换主板吧,顺带买张诊断卡,到时候方便排查具体卡点。
    ningfan120
        9
    ningfan120  
       6 天前
    NAS 的话,还要考虑有没有那个应用持续吃内存,把内存爆掉了,然后就会死机了。
    null2error
        10
    null2error  
       6 天前
    这不请出日志大法?能稳定复现的问题一般不会太难查~
    OysterQAQ
        11
    OysterQAQ  
       6 天前
    内存没问题就直接换主板,排查代价很大,而且基本查不出
    frankilla
        12
    frankilla  
       6 天前
    我的 pve 每月更新一次系统,在此期间没有死过一次。感觉有没有可能是硬盘问题咧?
    lxh1983
        13
    lxh1983  
       6 天前 via iPhone
    我的 8505 装 PVE 或者 unraid 也会死机,后来关掉 C1 就好了
    zzNucker
        14
    zzNucker  
       6 天前
    基本主板或者 U 的问题
    ajaxgoldfish
        15
    ajaxgoldfish  
    OP
       6 天前
    @zzNucker 这么严重吗 =。=
    ajaxgoldfish
        16
    ajaxgoldfish  
    OP
       6 天前
    @null2error 不能稳定复现,每次运行五天以上才会死,五天以后就不定时的死机了
    yelc668
        17
    yelc668  
       6 天前
    感觉是内存条跟板不兼容 大概率是这样我猜的
    riazjack218
        18
    riazjack218  
       6 天前
    不定时死机的问题之前我也遇到过,每次隔一周左右就死机了,情况和楼主的描述也大差不差,不过我的系统是 esxi
    ```
    2024-09-21T09:16:15.508Z cpu2:2099372)[45m[33;1mVMware ESXi 6.7.0 [Releasebuild-15160138 x86_64][0m
    Machine Check Exception: Fatal MCE on PCPU2 in world 2099372:vmm2:linux-2?System has encountered a Hardware Error - Please contact the hardware vendor
    2024-09-21T09:16:15.508Z cpu2:2099372)cr0=0x80050033 cr2=0x7f3384751518 cr3=0x12e6ea000 cr4=0x152660
    2024-09-21T09:16:15.508Z cpu2:2099372)frame=0x451a0261bec0 ip=0x41801354745b err=18 rflags=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)rax=0xffffffffffffffff rbx=0xffffffffffffffff rcx=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)rdx=0xffffffffffffffff rbp=0x1 rsi=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)rdi=0xffffffffffffffff r8=0xffffffffffffffff r9=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)r10=0xffffffffffffffff r11=0xffffffffffffffff r12=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)r13=0xffffffffffffffff r14=0xffffffffffffffff r15=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:0 world:2099368 name:"vmm0:ikuai (V)
    2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:1 world:2099590 name:"vmm3:linux-1" (V)
    2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:2 world:2099372 name:"vmm2:linux-2 (V)
    2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:3 world:2099371 name:"vmm1:linux-3 (V)
    2024-09-21T09:16:15.509Z cpu2:2099372)@BlueScreen: Machine Check Exception: Fatal MCE on PCPU2 in world 2099372:vmm2:linux-2?System has encountered a Hardware Error - Please contact the hardware vendor
    2024-09-21T09:16:15.509Z cpu2:2099372)Code start: 0x418013400000 VMK uptime: 6:06:35:27.868
    ```
    后来排查发现是宿主机中 CPU 使用率过高,虚拟机无法正常获取资源导致的磁盘 io 延迟过高进而导致 esxi 的崩溃;楼主如果有空的话可尝试装个 esxi 观察几天,等出现紫屏的时候再看看详细的 debug
    tbc3211
        19
    tbc3211  
       5 天前
    没日志估计是供电问题,之前我拆开看电源线都烧黑了
    Y9qn1d
        20
    Y9qn1d  
       5 天前 via iPhone
    群辉死机重启后不应该有异常提示的吗?
    xiaomayi000
        21
    xiaomayi000  
       5 天前
    把双 16G 内存,换成先挨个用单条试下。
    weeka
        22
    weeka  
       5 天前
    供电问题?我之前 PVE 用的服务器拆机 1u 300w 电源,平时负载在 180w 左右,跑了 2 年没问题,但是突然有一天莫名其妙死机,后来就会断断续续死机,也是查不到日志,各种排除原因是 PVE 系统负载高就会死机,后来换了个全新电源就好了
    m1nm13
        23
    m1nm13  
       5 天前
    装个 windows 跑个 tm5 确认不是内存有问题.那基本上大概率是主板有问题
    m1nm13
        24
    m1nm13  
       5 天前
    @m1nm13 MTETEST86 和闹着玩一样的,约等于没用
    jhytxy
        25
    jhytxy  
       5 天前 via iPhone
    这个真不好查


    我也碰到过
    以为是买的杂牌 ssd 问题

    结果换来换去还是那样

    后来上了个稳压电源再没出现过
    breakplus
        26
    breakplus  
       5 天前
    有可能是内存占满了
    likai
        27
    likai  
       5 天前
    负载过高或温度太高.系统假死了
    caola
        28
    caola  
       5 天前
    碰到过电压不稳定造成的类似问题,后来直接弄个 UPS 做为前置电源,起到稳压的同时还能在断电后发送关机指令,防止突然断电对硬盘和数据的损坏
    busterian
        29
    busterian  
       3 天前 via Android
    我的 pve 之迁移到新固态硬盘,迁移后和你描述的情况差不多,明明这两个固态性能差距没那么大,但是实际使用起来迁移后卡的要死,甚至带蹦 pve, 然后排查原因是 linux 虚拟机迁移后不知什么原因导致 mysql worker 疯狂占用 cpu 资源导致的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4994 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 09:39 · PVG 17:39 · LAX 01:39 · JFK 04:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.