如图,跟个人体感比较一致(曾经订阅 Claude Max 20x ,现订阅 ChatGPT Pro 和 ZAI Max Plan ),如果智谱的 infra 再升级下,大多数 coding 任务就完全可以靠他了
1
sddyzm PRO 这家排行榜挺不错的
|
2
Bootis OP 非广告,但是目前国内的 Coding Plan 都是极其优惠的价格,个人认为现阶段订阅年费大概率是买到就是赚到
|
5
longxinglink 10 小时 51 分钟前
ollama 免费 API 也支持上了,不知道对比 GAMMA 4 有啥优势
|
8
abc0123xyz 6 小时 9 分钟前
|
10
wm5d8b 5 小时 30 分钟前
试了试腾讯提供的 glm5.1 ,存在将中文引号强制转为英文引号的 bug ,和 qwen 的中英文间强制加空格有的一拼
|
11
rubyacgn 4 小时 57 分钟前
我觉得 cursor bench 最准, 上面是 gpt 5.4 第一
|
12
admirez 4 小时 20 分钟前
glm 超过 gpt 是我听过最大的笑话了 (至少目前是,希望以后他能赶上)
|
13
FlashEcho 3 小时 14 分钟前
Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ,比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型,很大程度上发挥不出来,只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了,但是 SWE BENCH 的测评可信度都比这玩意高,毕竟那是基于真实有效的任务
|
14
Bootis OP @rubyacgn gpt 5.4 high 绝对是第一(除了让它自由发挥干 UI ),而且 OpenAI 大善人又不封号,googleplay 订阅还不用交平台税,codex 额度还给拉满,没有任何理由订阅 claude 了
|
15
sakuraT1 16 分钟前
排行榜没啥参考,有个视频说的挺好,国产的模型很喜欢针对测试排行进行特调,实际用起来就会发现和 claude gpt 差距很大,感觉不是很聪明,只能适用一些很简单的编程任务
|