GLM5.1 在 arena 上 code 排行世界第三了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

如图，跟个人体感比较一致（曾经订阅 Claude Max 20x ，现订阅 ChatGPT Pro 和 ZAI Max Plan ），如果智谱的 infra 再升级下，大多数 coding 任务就完全可以靠他了

GLM5.1

Coding

infra

15 条回复

sddyzm

PRO

11 小时 1 分钟前

这家排行榜挺不错的

Bootis

10 小时 59 分钟前

非广告，但是目前国内的 Coding Plan 都是极其优惠的价格，个人认为现阶段订阅年费大概率是买到就是赚到

Bootis

10 小时 55 分钟前

@sddyzm 确实跟个人使用体感一致，除了 GPT5.1 high 的排名低了，估计是 UI 相关的能力过于拉跨拉低了分数

Bootis

10 小时 55 分钟前

@Bootis #3 修正 5.1-5.4

longxinglink

10 小时 51 分钟前

ollama 免费 API 也支持上了，不知道对比 GAMMA 4 有啥优势

licoba

9 小时 54 分钟前

@Bootis #2 赚啥呀，限额不是说限就限，计划不是说调整就调整，要我说还是包月包季吧

Bootis

9 小时 40 分钟前

@licoba OpenAI 、Anthropic 、Google 不都一样，国内厂现在给的配额调整了也基本是非常划算的一档了

abc0123xyz

6 小时 9 分钟前

glm 能力还不错，但是 429 警告

nakun233

6 小时 1 分钟前

@Bootis GLM 的我忘记自己上个月点取消了，前天忘记续费 49 的套餐没了

wm5d8b

5 小时 30 分钟前

试了试腾讯提供的 glm5.1 ，存在将中文引号强制转为英文引号的 bug ，和 qwen 的中英文间强制加空格有的一拼

rubyacgn

4 小时 57 分钟前

我觉得 cursor bench 最准, 上面是 gpt 5.4 第一

admirez

4 小时 20 分钟前

glm 超过 gpt 是我听过最大的笑话了（至少目前是，希望以后他能赶上）

FlashEcho

3 小时 14 分钟前

Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ，比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型，很大程度上发挥不出来，只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了，但是 SWE BENCH 的测评可信度都比这玩意高，毕竟那是基于真实有效的任务

Bootis

49 分钟前

@rubyacgn gpt 5.4 high 绝对是第一（除了让它自由发挥干 UI ），而且 OpenAI 大善人又不封号，googleplay 订阅还不用交平台税，codex 额度还给拉满，没有任何理由订阅 claude 了

sakuraT1

16 分钟前

排行榜没啥参考，有个视频说的挺好，国产的模型很喜欢针对测试排行进行特调，实际用起来就会发现和 claude gpt 差距很大，感觉不是很聪明，只能适用一些很简单的编程任务