beginor
V2EX  ›  Local LLM

本地部署 GLM-5.2 的门槛太高了,根本玩不起!

  •  
  •   beginor · 1 day ago · 6646 views
    智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!

    前后尝试了两个版本,分别是:

    1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
    2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

    先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;

    然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行,结果如下:

    1. 在上下文类型也是 fp8 的情况下,8 张 H20 ,1.1TB 显存,居然无法开启 1m 上下文;
    2. 将上下文长度设置为 384k 之后,vllm 启动提示 1.3 个并发,将上下文长度设置为 256k ,vllm 启动提示 2.5 个并发;
    3. 输出大概有 50tokens/秒,吐字速度算还可以;
    4. 3 个 claude code 同时连接使用,就能感觉到明显卡顿;

    从 vllm 的启动日志看,glm-5.2 的缓存架构还是基于 deepseek 3.2 的,显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多!

    以上只是对本地部署测试 glm-5.2 的初步印象,劝大家如果没有 h200/b300 级别的装备的话,还是算了吧!😂
    44 replies    2026-06-29 18:53:18 +08:00
    flypei
        1
    flypei  
    PRO
       1 day ago
    网上还有说用 mac studio 部署的,4 张 H20 都玩不转,mac studio 真的行么
    Hconk
        2
    Hconk  
       1 day ago via iPhone   ❤️ 1
    @flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题,token 速度看上下文有多大了,小的话 20 多 TPS 应该能跑,大了估计就几 TPS ,闲鱼有些人卖的自部署接口就是用这个整的
    shmilypeter
        3
    shmilypeter  
       1 day ago
    @Hconk 咸鱼还有人卖自部署?牛逼,小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

    我算过了,自部署这一块靠卖 token 是不可能回本的,自部署扛不住几个并发的。
    Hconk
        4
    Hconk  
       1 day ago via iPhone
    @shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多,1.5T 显存 nv 卡少说两三百万能下来,用 mac 统一显存 512g 十来万一台
    shmilypeter
        5
    shmilypeter  
       1 day ago
    @Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了,要是按照以前的价格,搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ,供一个十人团队没啥问题的,律所这样的地方是有本地化需求的。
    uselesswater
        6
    uselesswater  
       1 day ago via Android
    要是干个满血的下来,那得 200 多万吧!
    KumaAPI
        7
    KumaAPI  
    PRO
       1 day ago
    事实证明不是工作刚需的情况没什么必要本地部署模型使用 就算是租服务器开销也不小
    2658601135zzh
        8
    2658601135zzh  
       1 day ago
    自部署太费钱费时间了,有那钱都可以正价充值 api 爽蹬了
    YaakovZiv
        9
    YaakovZiv  
       1 day ago
    以前还能白嫖云主机平台的 GPU 服务器,现在 GPU 服务器热销,已经基本没法白嫖,必须是先有商务合同,才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。
    damontian
        10
    damontian  
       1 day ago via Android
    现在这个阶段,自己部署是真不划算
    root71370
        11
    root71370  
       1 day ago via Android
    所以是不是证明官方部署的 api 也是亏本的
    bwnjnOEI
        12
    bwnjnOEI  
       1 day ago via iPhone
    没试试 sglang 吗?话说你要想部署生产级响应的需要把所有参数都要搞明白,玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s
    slowgen
        13
    slowgen  
    PRO
       1 day ago
    本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ,直接上 NVFP4 量化,真的就一代架构一代神
    pikay
        14
    pikay  
       1 day ago
    话说上午的 GLM Plan 有人抢得到吗?
    beginor
        15
    beginor  
    OP
       1 day ago via Android
    @uselesswater 按现在的价格趋势,200 万估计不够了
    beginor
        16
    beginor  
    OP
       1 day ago via Android
    @slowgen RTX 6000 Pro 刚出来时 6 万,现在翻倍都不止了
    beginor
        17
    beginor  
    OP
       1 day ago via Android
    @bwnjnOEI sgl 更复杂,虽然有官方的指南,时间有限,只测试了 llama.cpp 和 vllm ,这两个都好熟悉
    yatseni
        18
    yatseni  
       1 day ago
    起步上最新模型,可不是投入大吗
    raycool
        19
    raycool  
       1 day ago
    现在 H200 贵的离谱
    emric
        20
    emric  
       1 day ago
    我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。
    coefu
        21
    coefu  
       1 day ago
    牛逼,有钱
    garyalen
        22
    garyalen  
       1 day ago via iPhone
    910C 还需要双机 32 卡呢 配套得去到 600w
    MaiGe
        23
    MaiGe  
       1 day ago
    我女朋友公司本地部署了 GLM5.2 不知道是不是满血
    felixcode
        24
    felixcode  
    PRO
       23h 32m ago
    都是买了大内存 mac 后发现没啥用处
    于是发帖安慰自己,本地大模型虽然没用,但能保护隐私。
    germain
        25
    germain  
       22h 5m ago
    目前用的 Ollama 的 plan ,GLM5.2 也有,效果不错
    shakaraka
        26
    shakaraka  
       21h 1m ago
    我先不吐槽其他的,我想问一下,你出于本地部署的需求是什么?
    yuedashi
        27
    yuedashi  
       17h 50m ago via Android
    @shakaraka 很多单位没法连外网。我就是。。就是内网部署着用
    yifangtongxing28
        28
    yifangtongxing28  
       17h 32m ago
    @felixcode 32g 以上到 64 还是比较刚需的 64 以上家用不太合适
    sparkssssssss
        29
    sparkssssssss  
       17h 31m ago
    @Hconk #4 能部署和能正常用还是有区别的吧,我们单位去年 ds3 出圈的时候就买了一台 mac studio 256G 的,5w 多,结果跑 ds 70b 速度都很很勉强,
    damichifan
        30
    damichifan  
       17h 29m ago
    @shakaraka 写代码可能无所谓,但有些技术文件,其实不算高精尖,但不适合对外公开。工程类的很多,也有一些确实是新工艺之类的,不能公开
    Mandelo
        31
    Mandelo  
       17h 17m ago
    @shakaraka 涉密项目就要求
    sn0wdr1am
        32
    sn0wdr1am  
       17h 12m ago
    其实很简单:

    你要内网部署大模型,本地部署大模型,你就砸钱,砸很多很多钱去部署。

    那不是一般的多。

    小打小闹还是算了。
    neoblackcap
        33
    neoblackcap  
       16h 58m ago
    LLM 推理引擎各家都有魔改的,不是直接拿 vllm 搞的。赚钱的点就在于缓存命中,缓存命中率约高,就越赚钱
    nasmatic
        34
    nasmatic  
       16h 49m ago
    H20 和 H200 显存一样的吧,20 开不了 1m 上下文 200 估计也不行
    shakaraka
        35
    shakaraka  
       16h 32m ago
    @yuedashi #27
    @damichifan #30
    @Mandelo #31

    这种场景我理解。那么既然这样公司就应该不计成本给你们部署才对。要么就是和阿里、华为签订合作等途径。

    让你们考察如何自行部署,完全不现实。

    如果如果都不行,那么你们就肯定只能古法编程了撒。本来完全体智商都不在线,更别说量化版了
    duanxianze
        36
    duanxianze  
       16h 31m ago
    AI 写代码目前比人力还贵啊
    Chihaya0824
        37
    Chihaya0824  
       14h 12m ago
    gguf 是这样的,有几点 op 可以试一下,算是在小显存里挣扎的一些经验
    1.用 fp8 的 kv cache
    2.尝试用 speculative decoding ,就是说你把 MTP 给打开,应该能够让 tps 变高挺多的,后续如果有 dflash 还可能可以提高更多
    3.接受质量损失去用 awq 版,但是肯定不会比 fp8 好
    都可以试一下,8 个 h20 肯定可以跑的,而且 kvcache 还可以做 tiering ,可以用内存 swap ,变相支持更多用户(一定程度上)
    beginor
        38
    beginor  
    OP
       13h 57m ago
    @nasmatic H200 的算力是 H20 的十几倍,效果肯定比 H20 好很多
    beginor
        39
    beginor  
    OP
       13h 55m ago
    @Chihaya0824 我也是一直在小显存里面折腾,Mac ,魔改 4090 ,5090 都测试过不少,这次只是有机会用一下 H20 而已
    beginor
        40
    beginor  
    OP
       13h 53m ago
    @shakaraka 私有部署应对的是涉密项目,不能联网的单位的需求
    jimrok
        41
    jimrok  
       13h 30m ago
    只能找云厂上,托管到云端,涉密的只能这样了。后续模型更大,私有部署只能是云托管模式。
    diudiuu
        42
    diudiuu  
       12h 38m ago
    已经超过这个网站 99%的人了,真有钱
    beginor
        43
    beginor  
    OP
       11h 8m ago
    @diudiuu 没钱,只是提供思路和方法,恰饭而已
    xiawudexue123
        44
    xiawudexue123  
       7h 20m ago
    能否考虑 cerebras 的方案?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1125 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 98ms · UTC 18:13 · PVG 02:13 · LAX 11:13 · JFK 14:13
    ♥ Do have faith in what you're doing.