V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
shoumu
V2EX  ›  程序员

打算配一台主机用于跑大模型玩,大佬们有推荐的配置吗

  •  
  •   shoumu ·
    shoumu · 240 天前 via iPhone · 4603 次点击
    这是一个创建于 240 天前的主题,其中的信息可能已经有所发展或是发生改变。
    虽然是搞互联网的,但是对硬件这块确实没啥研究,所以想请大佬们帮忙推荐下配置,目前在京东上看了朴赛装的机器,券后 27849 ,不知道是否有坑,求指教
    第 1 条附言  ·  240 天前

    主要是本地推理,最大跑13B模型,目前考虑的cpu 14900kf、内存128g、显卡4090

    30 条回复    2024-03-17 14:03:30 +08:00
    52boobs
        1
    52boobs  
       240 天前 via Android   ❤️ 1
    如果你不太确定想怎么玩大模型,其实可以花点小钱租台顶配机器跑跑感觉有点意思的项目,玩一段时间后你自然就知道怎么选择了。
    mythabc
        2
    mythabc  
       240 天前   ❤️ 1
    本地只能跑跑推理和 7B lora 训练。更大规模的训练可以选择租 A100
    我的配置是:
    GPU:4090D 虽然是 dog 版,但是目前 4090D 的性价比是比 4090 高的。
    板 U 内存:B550I + 5800X + 2 *32G 以前攒的,跑大模型对 CPU 要求不高,内存要注意有一些步骤,比如 lora 合并、量化会使用内存,如果内存太小可能就跑不起来,64G 是需要的。

    电源散热机箱:根据自己需求配把。

    主要成本还是显卡。
    forgetlight
        3
    forgetlight  
       240 天前   ❤️ 1
    主要是在于你想要怎么大模型,我预估是做 inference ,不太可能 fine-tuning 。这样的话主要是根据你需要跑的模型大小是否能放进显存。最好是提前调研下需要在什么精度下跑什么模型。
    mythabc
        4
    mythabc  
       240 天前
    顺带一提:我比较极限,把以上配置塞进了 SSUPD 里,一个 15L 体积的机箱。
    v2bili
        5
    v2bili  
       240 天前
    @mythabc 你这个配置可以 AI 出图 吗,2K 的图一个小时出 30 张行嘛?
    rus4db
        6
    rus4db  
       240 天前   ❤️ 1
    超微 7048GR + 4×2080ti(22GB) FYI
    dianso
        7
    dianso  
       240 天前   ❤️ 1
    没必要自己买。

    vultr 租一个就行。

    按需使用,小时付费。
    joshuasui
        8
    joshuasui  
       240 天前   ❤️ 1
    我去年部署的 13900KF + 128G + 4090 ,大概一共两万内搞定全白配色
    之前试过租云服务器,最大的硬伤就是每次开机用起来太麻烦了,可能是因为用的小平台,大平台如 aliyun 之类的又太贵。
    shoumu
        9
    shoumu  
    OP
       240 天前 via iPhone
    @joshuasui 想法类似
    HojiOShi
        10
    HojiOShi  
       240 天前
    @joshuasui 啥时间买的,啥配置。我差不多的配置花了三万。
    ZXiangQAQ
        11
    ZXiangQAQ  
       240 天前
    4090 显存不够吧,13B 的大模型如果 INT4 还好,如果 INT8 基本就需要 13-16G 显存了,fp 精度直接 30G+了扛不住
    Ackvincent
        12
    Ackvincent  
       240 天前
    塔式 T640 加 GPU 显卡 套件, 价格便宜量又足.
    mushuanl
        13
    mushuanl  
       240 天前
    大模型主要瓶颈在内存访问速度,直接上 mac 然后 llama.cpp, 大于 13B 的也能玩
    因为 13B 简单玩几次就腻烦了,参数越高性能越好
    HojiOShi
        14
    HojiOShi  
       240 天前
    @ZXiangQAQ 现在最新驱动有 fallback 回共享显存的选项,跑应该是能跑吧,只不过速度会减慢不少。
    leo6668
        15
    leo6668  
       239 天前
    @joshuasui 老哥跑的啥模型,多大参数
    churchill
        16
    churchill  
       239 天前
    如果是玩,mac 更经济一些

    mixtral 8x7b 也能跑
    HojiOShi
        17
    HojiOShi  
       239 天前   ❤️ 1
    @churchill 你不是在开玩笑,这配置说经济是吧。
    yplam
        18
    yplam  
       239 天前 via Android
    @churchill 有没有实际跑过?我之前测过 m1 上跑那速度实在无法忍,还只是 6b 的模型
    gam2046
        19
    gam2046  
       239 天前
    借楼问问,现在有没有什么大模型,可以用于看外语片的时候,能够根据音频出中文字幕的。
    dayeye2006199
        20
    dayeye2006199  
       239 天前
    你这价钱可以 colab pro 32 年的服务
    churchill
        21
    churchill  
       239 天前
    @yplam 自己玩的话没啥问题,速度还行

    47b 的规模
    youmilk
        22
    youmilk  
       239 天前
    @gam2046 windows 自带实时字母,勉强能用
    youmilk
        23
    youmilk  
       239 天前
    @youmilk 字母->字幕
    shoumu
        24
    shoumu  
    OP
       239 天前 via iPhone
    @dayeye2006199 pro 是 100 个计算单元,用不了多久吧
    shoumu
        25
    shoumu  
    OP
       239 天前 via iPhone
    @churchill 之前在 m1 pro 上跑过 7b 的模型,感觉速度一般
    yplam
        26
    yplam  
       239 天前 via Android
    @churchill 47b 8bit ?感觉挺好
    suuuch
        27
    suuuch  
       239 天前   ❤️ 1
    colab pro 可以先充值一个月试试看,只做推理的话,还是够用的,还可以免得冲动消费。。
    shuimugan
        28
    shuimugan  
       239 天前   ❤️ 3
    拿 2080ti 22g 跑 13B 8bit 量化,都能跑 30token/s 甚至更快。
    准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。
    很明确告诉你 13B 级别,如果不是特别训练单一领域的,那么就是一个弱智。
    比如最近最近新出的 StarCoder2 ,号称涵盖 619 种编程语言,我下载下来问几个语言、常用编程库、数据库之类的版本信息,15B 的训练数据落后 6 年,7B 的落后 9 年。

    显卡显存不够内存来凑的内存回退机制不用看了,屎中屎,无论是玩画图还是玩 LLM 推理都是教你关掉的。

    引用别人的回复
    “生成式大语言模型的推理过程就是先把模型本身加载到运存,然后每生成一个字都需要把整个模型遍历访问一遍,所以决定速度的就是运存带宽(预训练或者微调时需要计算能力,但推理时几乎不需要,就是沿着预训练好的权重选择下一步路径,所以哪怕 1060 配上 48G 显存也是推理神器)。比如 7B 模型的 8 位量化版本,每个权重占一个字节所以就是 7G 大小( 7B 参数是指有 70 亿个权重,8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能,也就是占用 1 比特的空间,同理目前性价比最高的 Q4 量化就是 3.5G ),如果是加载到 4090 的显存,因为它的 GDDR 显存带宽是 1000GB/s ,那么生成速度就是 1000 除以 7 大概每秒 140 个字(词元);如果是纯 CPU 推理,加载到 DDR4 的内存,带宽大概 30GB/s ,那么推理速度就是 30/7 大概 4 个字每秒”

    内存堆高优势不大,ddr5 双通道带宽也就 70 ~ 100GB/s ,是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。
    现在优化手段就是把模型合理拆分,不活跃的丢 CPU ,活跃的丢 GPU ,既要避免 cpu 在围观 gpu 干活,又要避免 cpu 因为内存瓶颈干活慢,比如 https://github.com/SJTU-IPADS/PowerInfer

    我每个月下载几百 G 的模型来测,用 M2 Ultra 192GB 玩了 3 个月了,最近就是因为它跑大模型的时候 cpu 不干活,我看不下去它在摸鱼,本来丢货架上不接显示器的,现在都接上显示器拿来写代码了。


    附:本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
    gam2046
        29
    gam2046  
       237 天前
    @youmilk #22 Windows 实时字幕是不带有翻译的,比如英语音频则显示英语字幕,而我希望不管音频语言是什么能帮我翻译到特定语言的字幕,比如中文。
    joshuasui
        30
    joshuasui  
       235 天前
    @HojiOShi 23 年 4 月吧,看了下现在自己配好亏啊,显卡、内存、存储全面涨价
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5730 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 01:56 · PVG 09:56 · LAX 17:56 · JFK 20:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.