本地部署 GLM-5.2 的门槛太高了，根本玩不起！

智谱最近发布的 GLM-5.2 口碑很好，于是想在算力服务器上试一下，结果发现，门槛太高了，根本玩不起！

前后尝试了两个版本，分别是：

1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

先说一下 UD-Q4_K_XL 量化版本，下载下来的 gguf 文件共 436G ，4 张 H20 （共 560G 显存），编译最新的 llama.cpp 来运行，结果发现只有 20 ～ 30tokens/秒，更别说并发访问了，基本没法用；

然后是 FP8 量化版本，权重文件共 704G ，8 张 H20 （共 1.1T 显存），下载最新的 vllm 来运行，结果如下：

1. 在上下文类型也是 fp8 的情况下，8 张 H20 ，1.1TB 显存，居然无法开启 1m 上下文；
2. 将上下文长度设置为 384k 之后，vllm 启动提示 1.3 个并发，将上下文长度设置为 256k ，vllm 启动提示 2.5 个并发；
3. 输出大概有 50tokens/秒，吐字速度算还可以；
4. 3 个 claude code 同时连接使用，就能感觉到明显卡顿；

从 vllm 的启动日志看，glm-5.2 的缓存架构还是基于 deepseek 3.2 的，显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多！

以上只是对本地部署测试 glm-5.2 的初步印象，劝大家如果没有 h200/b300 级别的装备的话，还是算了吧！😂

glm

部署

门槛

44 replies • 2026-06-29 18:53:18 +08:00

flypei

PRO

1 day ago

网上还有说用 mac studio 部署的，4 张 H20 都玩不转，mac studio 真的行么

Hconk

1 day ago via iPhone

@flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题，token 速度看上下文有多大了，小的话 20 多 TPS 应该能跑，大了估计就几 TPS ，闲鱼有些人卖的自部署接口就是用这个整的

shmilypeter

1 day ago

@Hconk 咸鱼还有人卖自部署？牛逼，小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

我算过了，自部署这一块靠卖 token 是不可能回本的，自部署扛不住几个并发的。

Hconk

1 day ago via iPhone

@shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多，1.5T 显存 nv 卡少说两三百万能下来，用 mac 统一显存 512g 十来万一台

shmilypeter

1 day ago

@Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了，要是按照以前的价格，搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ，供一个十人团队没啥问题的，律所这样的地方是有本地化需求的。

uselesswater

1 day ago via Android

要是干个满血的下来，那得 200 多万吧！

KumaAPI

PRO

1 day ago

事实证明不是工作刚需的情况没什么必要本地部署模型使用就算是租服务器开销也不小

2658601135zzh

1 day ago

自部署太费钱费时间了，有那钱都可以正价充值 api 爽蹬了

YaakovZiv

1 day ago

以前还能白嫖云主机平台的 GPU 服务器，现在 GPU 服务器热销，已经基本没法白嫖，必须是先有商务合同，才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。

damontian

1 day ago via Android

现在这个阶段，自己部署是真不划算

root71370

1 day ago via Android

所以是不是证明官方部署的 api 也是亏本的

bwnjnOEI

1 day ago via iPhone

没试试 sglang 吗？话说你要想部署生产级响应的需要把所有参数都要搞明白，玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s

slowgen

PRO

1 day ago

本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ，直接上 NVFP4 量化，真的就一代架构一代神

pikay

1 day ago

话说上午的 GLM Plan 有人抢得到吗？

beginor

1 day ago via Android

@uselesswater 按现在的价格趋势，200 万估计不够了

beginor

1 day ago via Android

@slowgen RTX 6000 Pro 刚出来时 6 万，现在翻倍都不止了

beginor

1 day ago via Android

@bwnjnOEI sgl 更复杂，虽然有官方的指南，时间有限，只测试了 llama.cpp 和 vllm ，这两个都好熟悉

yatseni

1 day ago

起步上最新模型，可不是投入大吗

raycool

1 day ago

现在 H200 贵的离谱

emric

1 day ago

我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。

coefu

1 day ago

牛逼，有钱

garyalen

1 day ago via iPhone

910C 还需要双机 32 卡呢配套得去到 600w

MaiGe

1 day ago

我女朋友公司本地部署了 GLM5.2 不知道是不是满血

felixcode

PRO

23h 32m ago

都是买了大内存 mac 后发现没啥用处
于是发帖安慰自己，本地大模型虽然没用，但能保护隐私。

germain

22h 5m ago

目前用的 Ollama 的 plan ，GLM5.2 也有，效果不错

shakaraka

21h 1m ago

我先不吐槽其他的，我想问一下，你出于本地部署的需求是什么？

yuedashi

17h 50m ago via Android

@shakaraka 很多单位没法连外网。我就是。。就是内网部署着用

yifangtongxing28

17h 32m ago

@felixcode 32g 以上到 64 还是比较刚需的 64 以上家用不太合适

sparkssssssss

17h 31m ago

@Hconk #4 能部署和能正常用还是有区别的吧，我们单位去年 ds3 出圈的时候就买了一台 mac studio 256G 的，5w 多，结果跑 ds 70b 速度都很很勉强，

damichifan

17h 29m ago

@shakaraka 写代码可能无所谓，但有些技术文件，其实不算高精尖，但不适合对外公开。工程类的很多，也有一些确实是新工艺之类的，不能公开

Mandelo

17h 17m ago

@shakaraka 涉密项目就要求

sn0wdr1am

17h 12m ago

其实很简单：

你要内网部署大模型，本地部署大模型，你就砸钱，砸很多很多钱去部署。

那不是一般的多。

小打小闹还是算了。

neoblackcap

16h 58m ago

LLM 推理引擎各家都有魔改的，不是直接拿 vllm 搞的。赚钱的点就在于缓存命中，缓存命中率约高，就越赚钱

nasmatic

16h 49m ago

H20 和 H200 显存一样的吧，20 开不了 1m 上下文 200 估计也不行

shakaraka

16h 32m ago

@yuedashi #27
@damichifan #30
@Mandelo #31

这种场景我理解。那么既然这样公司就应该不计成本给你们部署才对。要么就是和阿里、华为签订合作等途径。

让你们考察如何自行部署，完全不现实。

如果如果都不行，那么你们就肯定只能古法编程了撒。本来完全体智商都不在线，更别说量化版了

duanxianze

16h 31m ago

AI 写代码目前比人力还贵啊

Chihaya0824

14h 12m ago

gguf 是这样的，有几点 op 可以试一下，算是在小显存里挣扎的一些经验
1.用 fp8 的 kv cache
2.尝试用 speculative decoding ，就是说你把 MTP 给打开，应该能够让 tps 变高挺多的，后续如果有 dflash 还可能可以提高更多
3.接受质量损失去用 awq 版，但是肯定不会比 fp8 好
都可以试一下，8 个 h20 肯定可以跑的，而且 kvcache 还可以做 tiering ，可以用内存 swap ，变相支持更多用户（一定程度上）

beginor

13h 57m ago

@nasmatic H200 的算力是 H20 的十几倍，效果肯定比 H20 好很多

beginor

13h 55m ago

@Chihaya0824 我也是一直在小显存里面折腾，Mac ，魔改 4090 ，5090 都测试过不少，这次只是有机会用一下 H20 而已

beginor

13h 53m ago

@shakaraka 私有部署应对的是涉密项目，不能联网的单位的需求

jimrok

13h 30m ago

只能找云厂上，托管到云端，涉密的只能这样了。后续模型更大，私有部署只能是云托管模式。

diudiuu

12h 38m ago

已经超过这个网站 99%的人了，真有钱

beginor

11h 8m ago

@diudiuu 没钱，只是提供思路和方法，恰饭而已

xiawudexue123

7h 20m ago

能否考虑 cerebras 的方案？