V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Bootis
V2EX  ›  分享发现

GLM5.1 在 arena 上 code 排行世界第三了

  •  
  •   Bootis · 11 小时 2 分钟前 · 827 次点击

    如图,跟个人体感比较一致(曾经订阅 Claude Max 20x ,现订阅 ChatGPT Pro 和 ZAI Max Plan ),如果智谱的 infra 再升级下,大多数 coding 任务就完全可以靠他了

    sddyzm
        1
    sddyzm  
    PRO
       11 小时 1 分钟前
    这家排行榜挺不错的
    Bootis
        2
    Bootis  
    OP
       10 小时 59 分钟前
    非广告,但是目前国内的 Coding Plan 都是极其优惠的价格,个人认为现阶段订阅年费大概率是买到就是赚到
    Bootis
        3
    Bootis  
    OP
       10 小时 55 分钟前   ❤️ 1
    @sddyzm 确实跟个人使用体感一致,除了 GPT5.1 high 的排名低了,估计是 UI 相关的能力过于拉跨拉低了分数
    Bootis
        4
    Bootis  
    OP
       10 小时 55 分钟前
    @Bootis #3 修正 5.1-5.4
    longxinglink
        5
    longxinglink  
       10 小时 51 分钟前
    ollama 免费 API 也支持上了,不知道对比 GAMMA 4 有啥优势
    licoba
        6
    licoba  
       9 小时 54 分钟前
    @Bootis #2 赚啥呀,限额不是说限就限,计划不是说调整就调整,要我说还是包月包季吧
    Bootis
        7
    Bootis  
    OP
       9 小时 40 分钟前
    @licoba OpenAI 、Anthropic 、Google 不都一样,国内厂现在给的配额调整了也基本是非常划算的一档了
    abc0123xyz
        8
    abc0123xyz  
       6 小时 9 分钟前
    glm 能力还不错,但是 429 警告
    nakun233
        9
    nakun233  
       6 小时 1 分钟前
    @Bootis GLM 的我忘记自己上个月点取消了,前天忘记续费 49 的套餐没了
    wm5d8b
        10
    wm5d8b  
       5 小时 30 分钟前
    试了试腾讯提供的 glm5.1 ,存在将中文引号强制转为英文引号的 bug ,和 qwen 的中英文间强制加空格有的一拼
    rubyacgn
        11
    rubyacgn  
       4 小时 57 分钟前
    我觉得 cursor bench 最准, 上面是 gpt 5.4 第一
    admirez
        12
    admirez  
       4 小时 20 分钟前
    glm 超过 gpt 是我听过最大的笑话了 (至少目前是,希望以后他能赶上)
    FlashEcho
        13
    FlashEcho  
       3 小时 14 分钟前
    Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ,比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型,很大程度上发挥不出来,只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了,但是 SWE BENCH 的测评可信度都比这玩意高,毕竟那是基于真实有效的任务
    Bootis
        14
    Bootis  
    OP
       49 分钟前
    @rubyacgn gpt 5.4 high 绝对是第一(除了让它自由发挥干 UI ),而且 OpenAI 大善人又不封号,googleplay 订阅还不用交平台税,codex 额度还给拉满,没有任何理由订阅 claude 了
    sakuraT1
        15
    sakuraT1  
       16 分钟前
    排行榜没啥参考,有个视频说的挺好,国产的模型很喜欢针对测试排行进行特调,实际用起来就会发现和 claude gpt 差距很大,感觉不是很聪明,只能适用一些很简单的编程任务
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2941 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 14:32 · PVG 22:32 · LAX 07:32 · JFK 10:32
    ♥ Do have faith in what you're doing.