V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
cncmmdwl
V2EX  ›  NAS

有人配过过机房用 nas 服务器么,差不多带 100 台服务器读写

  •  
  •   cncmmdwl · 2021-08-06 17:32:32 +08:00 · 5556 次点击
    这是一个创建于 1210 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近领导要我整一台文件存储服务器,给了 3w 的预算,要带 100 台电脑算模型
    目前 15 台电脑 smb 共享总共每秒大概有 4.2Gbps 的流量出口
    smb 上共享文件主要是图片,单张 10Mbps 左右,单次 10 万张图片跑模型
    查了查商用 nas 的价格,我知道这玩意肯定是买不起了
    由于前任领导留下来了 40 多个 4t 硬盘,现任领导要求全部跑起来
    所以查了多方资料选择 truenas 后列了这样的一个单子

    cpu 双路 intel 银牌 4215r 2 带一台集群控制虚拟机
    主板 超微 x11dpl-i 1
    内存 三星 ddr4-32-2400-ecc 8
    内存 intel 傲腾 持久内存 128g 2
    网卡 cx456a 100g*2 1
    硬盘 intel p4800x 750g 1 zfs log 写缓存日志系统
    三星 PM983 3.84T 1 zfs l2acr 读缓存日志

    阵列卡 不知道买点啥
    电源 双路冗余 750w 电源 2
    阵列柜 24 盘位 raid 阵列柜 1
    机箱 4u 带热插拔机柜盘 1
    现在有几个问题,
    1.傲腾一代二代差别在那,能和这个 u 适配么,有没有适配文档
    2.zfs 有些人说 slog 只有 16g 有用,剩余空间就是没用的这条是否有误
    3.由于部分照片可能重复导入,是否还需要添加一个重复文件删除用的硬盘,大概需要多大?
    4.由于之前没接触过 raid,hba 卡,光口 hba 是否能装 sas-80 线等
    5.sas 似乎可以接很多硬盘,只要通过扩展卡就能 1 带 128 来着,但如果用线只能一分四,这是对的么
    6.pcie2.0 的阵列卡,sas3.0 会出现带宽不够问题么
    7.这里阵列柜是外置的,接口是金属的,肯定不是直接从卡上接出来的,应该买什么东西接
    8.目前超微 pcie 好像只有 3.0,有必要找 4.0 的 ssd 么
    58 条回复    2021-09-06 21:24:56 +08:00
    KKLeon
        1
    KKLeon  
       2021-08-06 17:47:14 +08:00 via Android
    先收藏,企业级别的存储服务器,坐等大佬解惑
    SaltyLeo
        2
    SaltyLeo  
       2021-08-06 17:58:18 +08:00
    单子里少了个系统盘。
    sunnyadamm
        3
    sunnyadamm  
       2021-08-06 17:58:46 +08:00
    cx456a 100g*2 你这个是 ib 网络的卡吧???如果是 ib 网络的话,,,ib 交换机和 ib 线很贵,而且你还没有数据缓存的 ssd,读写可能会慢,,,,不过说实话我这边都买成熟的产品,虽然没组过,但是明显能看出你这少好多硬件,hba 卡也需要专门的 hba 交换机
    wizzer
        4
    wizzer  
       2021-08-06 17:58:51 +08:00
    群晖 NAS 买现成的多省事
    Tianao
        5
    Tianao  
       2021-08-06 17:58:52 +08:00 via iPhone
    看楼主配了 100G 的网卡,交换机和模块有吗,一台 100G 交换机的价格就不止 3 万了。
    KKLeon
        6
    KKLeon  
       2021-08-06 18:00:55 +08:00 via Android
    @wizzer 群晖这种家用级别的满足不了楼主的需求吧
    felixcode
        7
    felixcode  
       2021-08-06 18:03:06 +08:00
    楼主这样配风险比较大,因为很多地方容易出现瓶颈。

    @wizzer 群晖有型号能支持这样的性能吗?
    129tyc
        8
    129tyc  
       2021-08-06 18:04:47 +08:00 via Android
    为啥不用 ceph 整一个存储集群呢,未来拓展起来也方便点
    wizzer
        9
    wizzer  
       2021-08-06 18:05:15 +08:00
    wizzer
        10
    wizzer  
       2021-08-06 18:06:31 +08:00
    @felixcode 不能发重复的链接,看上一条
    Ariver
        11
    Ariver  
       2021-08-06 18:07:37 +08:00
    emc 才是你需要的。
    jhdxr
        12
    jhdxr  
       2021-08-06 18:10:14 +08:00
    @wizzer 随便点进去看了几个,都最高只有 10g 的网,不够用的。
    wizzer
        13
    wizzer  
       2021-08-06 18:11:37 +08:00
    @jhdxr 1 个 PCIe 3.0,用于 25/40GbE NIC 扩展
    felixcode
        14
    felixcode  
       2021-08-06 18:11:48 +08:00
    @wizzer
    我猜列表里面低于三万的很少或者没有。
    要接 40 块硬盘的更是不可能。
    wizzer
        15
    wizzer  
       2021-08-06 18:13:08 +08:00   ❤️ 1
    @felixcode 看了下亚马逊有款 2.4 万能拿下,出厂 24 盘位,可扩展成 72,额,得算下扩展费用。
    KKLeon
        16
    KKLeon  
       2021-08-06 18:16:10 +08:00 via Android
    @wizzer 额,是我的偏见了,见笑了
    Tianao
        17
    Tianao  
       2021-08-06 18:16:51 +08:00 via iPhone
    @wizzer #13 一个 PCIe 3.0 x8 也才 80G,搞笑呢?
    ryd994
        18
    ryd994  
       2021-08-06 18:21:23 +08:00
    2.你有没有那么大的随机写入负荷。如果是只读或者顺序写入的话 slog 用处不大
    3. 你是在说 zfs dedup ?多放内存可以用
    5.对。扩展卡只要有供电就行,不需要真 pcie 槽。
    7.就是直接从卡上接。找接口外置的 hba 。每个硬盘柜至少一个 expander 。expander 找有外置接口的。服务器和硬盘柜之间用 sas 线直连。如果你要高可用的话还需要考虑多个 HBA 和 expander 直接交叉组网互联

    说实话我觉得单机 4.2/15*100=28G 可能真的有点难度。特别是 zfs 还要计算 xhecksum,你想 dedup 就更慢。

    阵列卡只要接口数量够就行了。性能都够用,因为这是当 HBA 用,本身不参与阵列。
    zdy349
        19
    zdy349  
       2021-08-06 19:20:12 +08:00
    @sunnyadamm
    CX456a 印象中是以太的卡,记不太清了,不过 mellanox 的 ib 卡也可以改以太的模式( cx6 我试过,4 、5 应该也可以) ssd 我看 lz 写了

    @Tianao
    一台 6855 大概几千块吧,没那么贵,就是百 G 口少了点。不过剩下的 100 台机器不知道是不是 25G 的

    @cncmmdwl
    1.我理解没错的话,有接 pcie 插槽的,有接内存插槽的,二代应该是指接内存插槽的吧? v6 系列的 cpu 应该能带
    6.你可以算一下硬盘总 i/o 带宽,估计 pcie2.0 会有瓶颈
    zdy349
        20
    zdy349  
       2021-08-06 19:21:28 +08:00
    另外,如果在机器上跑 vm 的话,vm 里跑 io 的话,virtio 可能成为性能瓶颈
    zdy349
        21
    zdy349  
       2021-08-06 19:25:28 +08:00
    查了下 CX456a 是以太 IB 双协议的
    locoz
        22
    locoz  
       2021-08-06 19:30:48 +08:00 via Android
    比较好奇为什么选择用 truenas 而不是直接上 ceph ?管理也方便,性能也高,扩展性也强,而且还压根不用考虑 raid 挂盘要恢复数据的问题…

    现在 k8s 上跑个 rook-ceph 堪称无脑启动,基本不用配啥东西就能跑起来生产环境用了。而且如果另外那 100 台也是 k8s 的节点的话,使用起存储来更是简单粗暴,直接挂个 pvc 就能用了,性能实测还能在没有任何优化的情况下比跑 smb 协议稳一些、小文件读写快一些。
    locoz
        23
    locoz  
       2021-08-06 19:36:47 +08:00 via Android
    而且你这直接在网卡上搞了 100G*2,想要榨干净的话各种方面都得考虑到,成本还高(机房用总不能跟玩 homelab 一样买二手吧…),很可能还不如多台机跑分布式存储共同提供服务。所以我真没明白为啥你会这么配。
    Pythondr
        24
    Pythondr  
       2021-08-06 20:31:53 +08:00 via iPhone
    Ceph 应该合理
    cncmmdwl
        25
    cncmmdwl  
    OP
       2021-08-06 21:54:59 +08:00
    @SaltyLeo freenas 可以在 u 盘上工作
    cncmmdwl
        26
    cncmmdwl  
    OP
       2021-08-06 21:55:36 +08:00
    @wizzer 3w 的报价,我问了,没有这么大并发的货色
    cncmmdwl
        27
    cncmmdwl  
    OP
       2021-08-06 21:55:53 +08:00
    @sunnyadamm 以太 ib 双协议
    cncmmdwl
        28
    cncmmdwl  
    OP
       2021-08-06 21:56:33 +08:00
    @Tianao 有的,交换机有两个 100g 和 24 个 40g
    cncmmdwl
        29
    cncmmdwl  
    OP
       2021-08-06 21:57:32 +08:00
    @129tyc ceph 是多机的,我们走报销,不能买多台机器
    cncmmdwl
        30
    cncmmdwl  
    OP
       2021-08-06 21:58:31 +08:00
    @Tianao cx456a 100g 用的是 pcie-3.0*16 够 100g
    cncmmdwl
        31
    cncmmdwl  
    OP
       2021-08-06 22:01:05 +08:00
    @zdy349 1.对,我指的就是长成内存哪样子的傲腾,6.硬盘卡有瓶颈话就加点钱再提升一档了
    cncmmdwl
        32
    cncmmdwl  
    OP
       2021-08-06 22:06:37 +08:00
    @ryd994
    2.全是随机写,单个文件最大不超 5m,主要是 smart3d 跑渲染,全是小文件
    3.对,主要是怕 zfs 吃内存这个放不下所以配的
    7.淘宝那种光纤卡就行了? DELL 0RXNT1 Emulex LPE31002-M6-D 16Gb 双端口光纤通道 HBA 卡 淘宝搜索的货张这样,难道把光模块拔了换 sas 线就行了?
    大佬对这个配置还有何高见?
    cncmmdwl
        33
    cncmmdwl  
    OP
       2021-08-06 22:12:33 +08:00
    @locoz 可以,我们采购可以二手,本身也不是什么正规机房,只要能开票的货都能采购,多机只是因为采购只能买一台,不然平不了帐
    liuhan907
        34
    liuhan907  
       2021-08-06 23:34:31 +08:00   ❤️ 1
    @cncmmdwl
    1. CPU 大体上应该是够用。
    2. 不要买傲腾内存,和你的 CPU 配不上,用途不大。把内存插槽插满比你买傲腾便宜。我按你六块盘一组 raidz2,计算 42 盘七组 raid,总可用容量大约 110T 。考虑你有去重的需求把内存加到 300G 较合适。
    3. 网卡不要买 cx,牙膏厂的网卡更合适这种需求,简单省事。比如 x710 之类。
    4. zfs 的 slog 考虑你这是生产环境,不要用单盘。买两块 p4800x 组 raid1 用。但是 750g 太浪费了,slog 是意向日志数据,在不超过你的阵列写入速度时,最大容量需求就是你的网卡传输速度乘以刷新间隔而已。买最小容量的傲腾 SSD 足矣。
    5. 用 zfs 不需要硬阵列卡,只需要扩展卡。
    6. 直接买 sas 口的扩展卡接扩展柜就行,具体的得按你的柜子型号来。
    7. pcie2 的阵列太老了,还是算了。
    8. pcie 对于你的 HDD 盘来说没有啥意义。你的主板本身 pcie 数量就够用。
    9. 最后,freenas 现在来看可以考虑 scale 版本而不是 core,毕竟 Linux 会的人还是更多一点。
    ryd994
        35
    ryd994  
       2021-08-07 00:30:34 +08:00 via Android
    @cncmmdwl 你为啥要用光纤 sas hba ?直接用 minisas 的卡呢?
    不说带宽,就说口数的话两三个 expander 已经够了。那 HBA 也只需要 8port/2 槽(一条 minisas 线走 4 个 port )。
    如果按 6Gbps 算的话,600MB,大约可以给四五个盘。8port 也是勉强够用的。
    还有 pcie 带宽的问题,所以用多个 hba 是必要的。
    initd
        36
    initd  
       2021-08-07 00:32:18 +08:00
    做好规划很重要, 毕竟退换货有时间成本, 而折腾硬件是精力成本.
    软件工程的成本总体来说是比较愉悦的, 复杂难用的不去用就可以了.
    而硬件是 have to do.

    highrw.netlify.app
    ryd994
        37
    ryd994  
       2021-08-07 00:34:16 +08:00 via Android
    避免误导你,我先讲清楚,我是外行,不是大佬。所以我说的内容很可能都是业余瞎玩的
    cncmmdwl
        38
    cncmmdwl  
    OP
       2021-08-07 00:45:12 +08:00
    @liuhan907
    感谢解答,还有几个疑问想问下
    1.大体够用是指的是仅跑 nas 还是指再带一个虚拟机?
    2.主要是看上傲腾内存拆机那种一根 128g 才 2k,ddr4 32 两根的价格,所以看起来更大一些,即使这样也没必要买么?
    3.cx 系列网卡指的是容易出现不兼容问题么,主要是考虑价格问题 2k 即可拿下,目标需求是 100G,x710 是 10G
    4.我更怕的是小文件刷入不够快,这个生产环境下只有生产前的原始数据丢失是不可原谅的,生产的数据丢了就丢了,毕竟重新生产费不了几分钟所以才只买一块大一点的 p4800x 。照你这样说话那就换两块小一点的 p4800x
    6.买柜子有送卡,那玩意就怕插上不识别,买的时候直接照装机的装好测试拉到,多一事不如少一事。
    9.我知道会 linux 的人多,但是看起来 truenas scale 还不够稳定,参考司波图 up 主最近一期 scale,还要调这调那,这个玩意做完通过验收后,设备所有权就不是我的了,所以 core 让其他人头疼可能还是更好的结果
    cncmmdwl
        39
    cncmmdwl  
    OP
       2021-08-07 00:53:31 +08:00
    @ryd994 主要是搜索 hba 卡,sas 卡,大多数卡的 sas 都是内置的,主要是怕 sas 塑料接口线缆如果被人暴力拉扯话,扯坏卡是小事,拉坏服务器事情大发了,6g 主要是淘宝上的卡大多数都是 sas2.0 而少见 sas3.0 的卡,这种卡或许需要去 jd ?
    hba 卡只接硬盘,但是柜子大多数只有一个通道,这可能会导致卡的速度被柜子限制住
    liuhan907
        40
    liuhan907  
       2021-08-07 01:15:50 +08:00
    @cncmmdwl
    1. 你选的这个 U 很新,总计 16 物理核心,主频也不算低。按理说再带一个虚拟机一般没问题,但是考虑你要开去重,本身对 CPU 压力就稍微会大点,还得要看你的虚拟机主要工作是什么。另外额外多提一句,你如果要用 core 版本,那个 freebsd 的系统的虚拟机相对 kvm 来说不是那么好使的。
    2. 考虑你的 CPU 支持傲腾,用内存模式的话确实便宜。但是我记得傲腾你得插满内存槽,而且要按比例混合内存和傲腾,你是否真的需要这么多内存。
    3. 那到不至于有兼容问题,就是 cx 的卡一般不能免驱,调驱动麻烦点。牙膏的 100G 卡确实贵,而且这张卡支持 IB 模式和以太网模式,也很合适。所以只要能调试通就没问题。
    4. 小文件的话,其实 zfs 的极大量小文件一直都不是特别快,对这个性能好的是 ceph 加大量的 nvme 缓存的模式。但是我觉得你那堆 5MB 的文件不能算小文件 23333333 。另外一点,你这个小文件刷入是原始数据还是可以丢的那种?如果是可以丢的那种你干脆就开缓存模式不要用同步写,速度就比较好看了。
    5. 具体机柜我就不太了解了,要不问问经销商吧。扩展卡其实不用太担心,现在纯扩展卡不是很贵,sas 卡很多都是一个卡就三十多端口,带盘问题不大。你这个板子两个 x16 三个 x8 不是光好看的哈哈哈
    6. freebsd 的 core 版本稳定,但是虚拟机和容器功能都不太好用,如果能接受的话 core 就是首选了。
    ryd994
        41
    ryd994  
       2021-08-07 02:39:30 +08:00 via Android
    @cncmmdwl 非推荐,纯举例
    https://www.broadcom.com/products/storage/host-bus-adapters/sas-9300-8e
    关键字 SAS3 external hba
    lsi 的卡最后一位是 e 就是外置口,i 就是内置口

    内置口也可以通过转换器转成外置口。实际上就是一条延长线,固定在 pci 挡板上。这样就不怕拉扯问题了。

    你确定只有一通道? minisas 一条线是 4 个通道。所以 lsi 8 port sas 卡只有两个 minisas 头。

    你说生产数据可以丢这个问题。把可以丢的数据放在另一个 zpool/dataset 上,可以强制忽略 sync 。不 sync 的话性能会好很多。或者扔到一个 raid0 上。钱够的话 ssd 组 raid
    defunct9
        42
    defunct9  
       2021-08-07 08:55:39 +08:00 via iPhone
    浪潮有个 nas 服务器,10 万
    matrix67
        43
    matrix67  
       2021-08-07 11:56:09 +08:00
    楼主你这个就一台 nas 服务器,要是这台 nas 坏了,那 100 台计算不就都空在那里浪费了。这个也是个成本
    cncmmdwl
        44
    cncmmdwl  
    OP
       2021-08-07 13:34:45 +08:00
    @ryd994 原来如此,明白了,就是说一条线不是 sata 那样子只有一个通道,所以可以接很多个扩展卡
    就是因为钱不够所以折中一些一个缓存盘
    raid0 原来想过弄,但是怕写入读写不够快,因为即使 12 个盘组 raid0 就是怕读写不够快
    cncmmdwl
        45
    cncmmdwl  
    OP
       2021-08-07 13:35:08 +08:00
    @matrix67 验收后坏了我不管的
    cncmmdwl
        46
    cncmmdwl  
    OP
       2021-08-07 13:43:52 +08:00
    @liuhan907 1.虚拟机主要工作是分配任务给 100 台机器,发布完任务就只剩下接收设备回传的运行状态而已,或许后面可能再挂一台无盘启动服务器,反正没什么活要交给他干,我知道 core 上的那个虚拟机就是一个巨坑,不支持半虚拟以及没法硬件直通还不支持显卡
    2.傲腾的要求是 1 比 4 所以说不能全插傲腾,至于内存,zfs 不是说内存越大越好么,巴不得直接搞个 2t 内存模型全放内存跑
    4.我就是打算开缓存模式不是同步刷写,同步刷写话百分白卡盘,而且盘还有大规模读取
    6.未来或许 core 可以直接转池到 scale 下把,毕竟池只要导入即可,或许还能无缝衔接
    cncmmdwl
        47
    cncmmdwl  
    OP
       2021-08-07 13:46:20 +08:00
    @matrix67 坏了,坏了我们就可以美滋滋的的通知老板修设备了,反正我们平常设备也不跑,70 台设备还是隔壁教室借的,坏了只要不耽误学生上课就行
    cncmmdwl
        48
    cncmmdwl  
    OP
       2021-08-07 13:46:46 +08:00
    @defunct9 预算起飞,必不可能
    liuhan907
        49
    liuhan907  
       2021-08-07 15:11:32 +08:00
    @cncmmdwl
    1. 虚拟机的任务这个双路 U 没有任何压力,都不带动的。你的负载还是主要在网络和 zfs 本身,考虑你用的网卡支持 rdma,可以考虑用支持 rdma 的协议减轻传输压力。zfs 这块就没啥好办法,不过应该还是可以撑得住。
    2. 你这个板子是八槽,大概就是六根傲腾两根内存。算下来也不少钱了。不过当然 zfs 是内存越大越好,能当缓存用。
    3. 现在 core 和 scale 的 zfs 都用的一个代码基线了,我想应该可以直接导入。
    ryd994
        50
    ryd994  
       2021-08-07 18:47:24 +08:00 via Android
    还有一个问题,你这种大量客户端同时满速传输的情况,最好考虑 rdma 或者其他 lossless 网络技术。这个在超算课上讲过,超算和储存节点之间的通讯基本没有用 TCP 的,原因就在于 TCP 的流控和 backoff 机制对于大量同步的连接,效果很不好。同时启动,同时 backoff,同时再启动,结果大量丢包同时跑不满带宽。
    所以你这个做法可能不管用,要有心理准备。限制并发连接数可能反而速度更好。
    singerll
        51
    singerll  
       2021-08-07 21:18:25 +08:00
    3w 块钱你现在想啥。。。。。40 多个 4t 盘,先不考虑网络设备,肯定得上商用服务器的,我觉 10 万块钱只能满足能跑的需求,至于性能。。。
    fx0719
        52
    fx0719  
       2021-08-07 23:22:12 +08:00 via iPhone
    我们公司用的 qnap,好像还不错。不急的话上班给你看看型号
    cncmmdwl
        53
    cncmmdwl  
    OP
       2021-08-08 14:21:50 +08:00
    @ryd994 目前来看,所有服务器都是 win10 工作站版本的,应该都支持 smb3.0 rdma, 由于我不是专业网工,所以 tcp 什么的都没接触过,而且没必要同步启动,实在不行话可以一次启动几个渲染器,一起启动必然吃交换机,限制并发感觉可能没什么用,实际上就是把 nas 上的盘当共享盘了,smb 本身毕竟没有限速功能,只要能吃满流量,集群机器带不动反正告诉老板再加钱就行
    cncmmdwl
        54
    cncmmdwl  
    OP
       2021-08-08 14:22:45 +08:00
    @singerll 这套配置本身就是商用的啊,大多数东西都是全新货色
    cncmmdwl
        55
    cncmmdwl  
    OP
       2021-08-08 14:23:47 +08:00
    @fx0719 不妨发出来看看商用情况,不够我觉得 qnap 估计不行,这里都上 100g 了。
    pandh97
        56
    pandh97  
       2021-08-08 22:51:25 +08:00
    有几个不成熟的建议:
    傲腾内存和普通内存性能还是存在差距(速度约 5 倍,延迟更大的多),不知道傲腾内存真实性能怎么样?
    p4800 和家用 900p 系列差距极小,推荐多买几块 900p
    读缓存建议两块超大容量 ssd,正好现在 ssd 价格不高,越大越好。
    cncmmdwl
        57
    cncmmdwl  
    OP
       2021-08-09 10:09:54 +08:00
    @pandh97 我的负载下,延迟是最次要的,因为 truenas 把文件全部放在内存里面了,由于只是当一个外挂硬盘,所以延迟只要不超过 500ms 应该影响都不大,p4800 主要是考虑稳定问题,家用的 905p 确实也是一个不错的选择,可能到时候就是里面那个便宜挑哪个了,超大容量 ssd 有什么推荐么,目前能找到的就是上面写的这货了。
    hhok
        58
    hhok  
       2021-09-06 21:24:56 +08:00
    了解下 NetApp, 企业级 NAS 世界第一
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4194 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:14 · PVG 18:14 · LAX 02:14 · JFK 05:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.