V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
Autonomous
V2EX  ›  NAS

用了五年的希捷酷狼 4T 终于搞的存储池损毁了

  •  
  •   Autonomous · 341 天前 · 5636 次点击
    这是一个创建于 341 天前的主题,其中的信息可能已经有所发展或是发生改变。

    希捷 Iron Worlf 4T ,先后在群晖 DS916 、DS918 、DS1821 上面服役,从去年开始就报坏扇区,把重要数据都转移走了,只用于备份和视频监控,之后坏扇区缓慢增加快到 100 ,今天中午报存储池损毁,总共用了 44963 小时(约 5 年) 存储池损毁 硬盘情况

    SMART 信息如下:

    === START OF INFORMATION SECTION ===
    Model Family:     Seagate IronWolf
    Device Model:     ST4000VN008-2DR166
    Firmware Version: SC60
    User Capacity:    4,000,787,030,016 bytes [4.00 TB]
    Sector Sizes:     512 bytes logical, 4096 bytes physical
    Rotation Rate:    5980 rpm
    Form Factor:      3.5 inches
    Device is:        In smartctl database [for details use: -P show]
    ATA Version is:   ACS-3 T13/2161-D revision 5
    SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
    
    
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME                                                   FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate                                              0x000f   100   064   044    Pre-fail  Always       -       191296
      3 Spin_Up_Time                                                     0x0003   093   093   000    Pre-fail  Always       -       0
      4 Start_Stop_Count                                                 0x0032   099   099   020    Old_age   Always       -       1438
      5 Reallocated_Sector_Ct                                            0x0033   100   100   010    Pre-fail  Always       -       72
      7 Seek_Error_Rate                                                  0x000f   090   060   045    Pre-fail  Always       -       942800017
      9 Power_On_Hours                                                   0x0032   049   049   000    Old_age   Always       -       44967 (166 64 0)
     10 Spin_Retry_Count                                                 0x0013   100   100   097    Pre-fail  Always       -       0
     12 Power_Cycle_Count                                                0x0032   099   099   020    Old_age   Always       -       1280
    184 End-to-End_Error                                                 0x0032   100   100   099    Old_age   Always       -       0
    187 Reported_Uncorrect                                               0x0032   097   097   000    Old_age   Always       -       3
    188 Command_Timeout                                                  0x0032   100   100   000    Old_age   Always       -       0
    189 High_Fly_Writes                                                  0x003a   100   100   000    Old_age   Always       -       0
    190 Airflow_Temperature_Cel                                          0x0022   069   058   040    Old_age   Always       -       31 (Min/Max 31/38)
    191 G-Sense_Error_Rate                                               0x0032   100   100   000    Old_age   Always       -       0
    192 Power-Off_Retract_Count                                          0x0032   100   100   000    Old_age   Always       -       94
    193 Load_Cycle_Count                                                 0x0032   100   100   000    Old_age   Always       -       1715
    194 Temperature_Celsius                                              0x0022   031   042   000    Old_age   Always       -       31 (0 8 0 0 0)
    197 Current_Pending_Sector                                           0x0012   100   099   000    Old_age   Always       -       24
    198 Offline_Uncorrectable                                            0x0010   100   099   000    Old_age   Offline      -       24
    199 UDMA_CRC_Error_Count                                             0x003e   200   200   000    Old_age   Always       -       0
    240 Head_Flying_Hours                                                0x0000   100   253   000    Old_age   Offline      -       44938h+12m+42.758s
    241 Total_LBAs_Written                                               0x0000   100   253   000    Old_age   Offline      -       41194810487
    242 Total_LBAs_Read                                                  0x0000   100   253   000    Old_age   Offline      -       734699003862
    
    

    看了下主要是 Reported_Uncorrect 、Offline_Uncorrectable 有计数,打算先用群晖做一个 Secure Erase 看看能否挽救。

    28 条回复    2023-12-26 03:01:44 +08:00
    yushiro
        1
    yushiro  
       341 天前 via iPhone
    这个只能听天由命,我提前 wd 红盘,7x24 用了好几年,报 smart 警告,就找商家售后了,5 年内质保。
    Autonomous
        2
    Autonomous  
    OP
       341 天前
    @yushiro 红盘还有 5 年质保,这么香!我这 IronWolf 只有 3 年质保,所以现在选择了银河 Exos
    FlytoSirius
        3
    FlytoSirius  
       341 天前
    怎么没见什么人用 东芝硬盘 ?
    kneo
        4
    kneo  
       341 天前 via Android
    五年就坏了?
    Autonomous
        5
    Autonomous  
    OP
       341 天前
    @kneo 是的,一共 4 块希捷狼盘,同时期买的,坏了 1 块,还有 3 块正常
    YsHaNg
        6
    YsHaNg  
       341 天前 via iPhone
    坏扇区开始出现的小时数?
    princeofwales
        7
    princeofwales  
       341 天前
    我的酷狼也是报 8 个坏扇区,数量一直没有增加就没管
    那块盘上面都是下载的电影,数据不重要
    asdgsdg98
        8
    asdgsdg98  
       341 天前
    还是买企业级吧,消费级越做越差了
    northbrunv
        9
    northbrunv  
       341 天前 via Android
    酷狼寿命不到银河一半
    maleclub
        10
    maleclub  
       341 天前
    17 年美亚直邮买了几个 WD 8TB ,现在还在群晖 916 里面服役,是真的耐操,没跑监控,也没有坏区。

    ![]( https://imgur.com/a/Tyf24Km)
    maleclub
        11
    maleclub  
       341 天前
    有 56000 个小时了
    metrics
        12
    metrics  
       341 天前
    羡慕 OP 的 8 盘位!
    现在在用 920 ,再换也是准备直接上 8 盘位了。
    JoeoooLAI
        13
    JoeoooLAI  
       341 天前
    五年确实也差不多了,这个真的有点讲运气,两块 4t 酷狼也是 5 年了,0 坏扇区,另外一个买了两年就出现几个坏扇区,目前还没增长,年头买了 hc550 ,看看企业级会不会好点,看看能撑多久。

    目前手头上存活最长命的硬盘是两块 3tb 红盘跑 raid1 的 WD30EFRX-68EUZN0, 截至现在 76313 小时,0 bad sector

    感觉只要供电稳,关掉自动启停,持续运行基本上 5 年还是问题不大的。
    zealic
        14
    zealic  
       341 天前
    我买的酷狼 8T 有 4 个盘同一批次的 3 个盘前两个月一起坏了,还好 RAID10 勉强数据无问题,寿命两年。
    JD 报修换了三个新的。
    希捷确实故障率是最高的,不管是实际还是数据统计;另一个 NAS 的 WD 3T 红盘 8 年了都没出问题。

    楼主没开 RAID 也是真的勇。
    xinmans
        15
    xinmans  
       341 天前 via iPhone
    配置个 zfs ,随便坏,换就是了,不影响数据
    daimaosix
        16
    daimaosix  
       341 天前 via Android
    @xinmans zfs 这么牛逼呢,坏了数据不丢吗
    token10086
        17
    token10086  
       341 天前
    我京东买的,3 年坏了给免费换新了。很香
    maleclub
        18
    maleclub  
       340 天前 via Android
    不管是监控还是 nas ,上 UPS 也是很重要。我另外几块 Wd 4TB 紫色监控盘,16 年下半年在 JD 买的,24 小时不间断跑到现在也没坏....体质好也可能,运气好也有可能,注意断电保护也是嘎嘎重要,施耐德 UPS3-4 年左右自己动手换一次铅酸电池也才 80~110 左右的费用。
    ltkun
        19
    ltkun  
       340 天前 via Android   ❤️ 1
    @daimaosix 配个 raidz3 可以坏三块不丢数据 我现在系统就这么玩 主要配置灵活 各种高级玩法 不如扩容都不需要停机 毕竟是给服务器用的
    Autonomous
        20
    Autonomous  
    OP
       340 天前
    @YsHaNg 不太记得了,一年多以前就出现坏扇区,回复不好发图,我文字敲一下:
    -----
    2023 年坏扇区数(累计量):
    一月 64
    二月 64
    三月 64
    四月 64
    五月 72
    六月 72
    七月 136
    八月 120
    九月 136
    十月 264
    十一月 232
    十二月 80 → 硬盘损毁
    -----

    感觉比较奇怪,这个数字总体来看是增长的,但是中途几个月还能减少,很神奇。
    Autonomous
        21
    Autonomous  
    OP
       340 天前
    @princeofwales 是的,避免在这块硬盘上存储重要数据
    @asdgsdg98 以后都选择企业级,噪音大没关系已经放玄关去了

    @northbrunv 听说酷狼就是银河的降级盘(次品)

    @maleclub 都靠运气

    @metrics 8 盘位基本就一步到位了,不折腾,但是插满真的费电
    @JoeoooLAI 一直都有 UPS ,我开始 2 年还用自动休眠,后来才关掉
    @zealic 有一种说法是,次品容易集中在某个批次一起出场,然后被一并购买,寿命也差不多同时耗尽,所以 RAID5 重建有一定失败率。我这个不开 RAID 是因为一年前就报坏扇区了,重要数据转移走然后踢出 RAID

    @maleclub 一直都用 APC-BK650
    asyqm
        22
    asyqm  
       340 天前
    @Autonomous 感觉上即便是次品某个批次,但是如果你是 4/8 个,HDD 同一时间(比如在一个月内)同时损坏的几率还是很少的。另外,HDD 跟 SSD 不一样,你说的寿命耗尽应该是指 SSD 。HDD 很多服役上 10 年的,理论上他没有寿命耗尽这个说法。
    zealic
        23
    zealic  
       340 天前
    @Autonomous 是的,但是消费品还是太容易买到同批次,即便非同批次也有概率同时坏,所以一般最好的做法是买相同容量的不同品牌的盘来组 RAID 。
    xinmans
        24
    xinmans  
       340 天前 via iPhone
    @ltkun 你好奢侈,我 8 盘位,raidz2 ,16T*8 ,可用空间 100T
    JoeoooLAI
        25
    JoeoooLAI  
       339 天前
    @Autonomous 同批次寿命耗尽的这个说法只存在于理论上,毕竟我跟过的服务器,硬盘肯定都是一次采购好的,也真的没出现过一块硬盘坏了以后在同一个月就跟着有另外一块盘坏的情况,当然也可能是我样本量不够多,而且都是 OEM 盘,手上管理的也不过百台。

    Raid5 有两个风险,一个是 URE 风险,就是重建时其中一块硬盘有坏块不可读导致重建失败,其实 Raid1 也会存在的,除非你是两块以上镜像。第二就是重建时别的盘崩掉,毕竟重建的时候其他盘都是全力工作的。

    如果楼主数据很重要且盘位足够,那肯定 raid6 实际,毕竟硬盘越大风险也是越大的。当然有额外一台机器备份那就更好了。

    也不太赞同完全不做 Raid ,毕竟能保持服务在线即使是对于个人家庭用户来说还是很舒服的,毕竟不做 raid ,每次出事都要慢慢倒备份,倒备份的时候又炸一次 那是真的心态崩了,Raid 即使有众多缺点到现在还有人用肯定是有道理的。

    虽然现在数据中心都开始往单盘闪存超融合去做存储,但人家机器节点规模可不是家里放得下的,所以还是老老实实 Raid + 备份,即使是买个 usb 硬盘盒额外装备份盘也好。
    shirasu
        26
    shirasu  
       336 天前
    @xinmans #24 可以顺便问一下使用的是什么系统吗?
    xinmans
        27
    xinmans  
       335 天前 via iPhone
    @shirasu unraid 和 truenas scale 都支持 zfs
    inorobot
        28
    inorobot  
       331 天前
    之前用的 DS918+,有块盘经常提示重新连接,后来发现清一下灰就好了,感觉可能是接口没有接好,以及 NAS 风道攒灰太大了,现在定期用吸尘器洗一下,换盘的时候把接口也都刷一下,基本后来没遇到提示重新连接数了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1538 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 17:03 · PVG 01:03 · LAX 09:03 · JFK 12:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.