V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
laraws
V2EX  ›  OpenAI

目前靠谱的 AI 模型水平排行榜有哪些? marena.ai 的 leaderboard 是否值得参考?

  •  1
     
  •   laraws · 12 天前 · 543 次点击

    目前靠谱的 AI 模型水平排行榜有哪些? marena.ai 的 leaderboard 是否值得参考?

    我看经常有大佬们提及 https://lmarena.ai/?leaderboard ,但是我看 gpt-4o 居然排名第二,比 gpt-o1-preview 和 Claude 3.5 Sonnet 还要强。个人平时用 AI 提问写代码,感觉 gpt-o1-preview 和 Claude 3.5 Sonnet 提供的基本都是可以直接用的,gpt-4o 提供的有时候不能使用。

    有没有靠谱的 AI 模型水平排行榜? marena.ai 的 leaderboard 的排名依据是啥?应该不是生成代码能力吧?

    4 条回复    2024-12-11 15:57:43 +08:00
    eremit
        1
    eremit  
       12 天前 via Android   ❤️ 2
    laraws
        2
    laraws  
    OP
       12 天前
    @eremit 不错,这个感觉比较靠谱,和我自己的一些使用感觉相符
    Persimmon08
        3
    Persimmon08  
       12 天前
    我也觉得 gpt4o 写代码的能力不如 o1 ,最近发布会后 4o 的表现更是比不上之前,似乎把算力都分配给 o1 了
    Liftman
        4
    Liftman  
       12 天前   ❤️ 1
    反正都是第一梯队的。这个所谓的排名也只是针对特定情况下的分数。

    你看国产模型的名次也不低,但是实际差太远了,全靠拟合。

    只能说自己试才知道哪个最好。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1728 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 16:29 · PVG 00:29 · LAX 08:29 · JFK 11:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.