V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
neteroster
V2EX  ›  OpenAI

Llama 4 发布以及其引起的争议

  •  1
     
  •   neteroster · 8 天前 · 1005 次点击

    叠甲:我知道本文内容可能有些看起来像是大模型生成的,不过实际上是纯手工写的...


    昨天( 2025 年 4 月 6 日),Meta 宣布开源(开放权重) LLama 系列的最新作 LLama 4 ,包含三个版本:

    Llama 4 Scout

    • 109B 总参数,激活 17B
    • 宣称“业界领先的 10M 上下文窗口”

    Llama 4 Maverick

    • 400B 总参数,激活 17B
    • 宣称“在广泛接受的基准测试中表现优于 GPT-4o 和 Gemini 2.0 Flash 。”
    • 宣称“在推理和编码方面实现与 DeepSeek V3 相当的结果——但仅使用一半的激活参数量。”
    • 宣称“无与伦比的性价比,聊天版本在 LMArena 上的 ELO 得分为 1417 。”,同时 LMArena 上公布了对应的成绩。

    Llama 4 Behemoth

    • 暂未开放权重[1]
    • 2T+ 总参数,200B+激活参数

    初看下来,许多人会认为开源这两个模型又是长上下文,又是以低成本超过 4o / DS V3 ,理所应当是一个强大,至少有许多亮点的模型。然而,事实却完全不同:

    很快,用户发现在 LMArena 上测试的中号模型 Maverick 和公开权重的模型在语言风格上差别很大,甚至都不像同一个模型

    这时,有部分用户猜测这是因为模型提供商的推理配置不正确,应当等待修复。

    随后,更多基准测试对开源的两款模型进行了测试:

    Aider Polyglot Benchmark

    Aider 是一个开源的编程 Agent ,Polyglot Benchmark 是他们制作的多语言大模型基准。这一基准被认可度还是较高的。

    ...
    claude-3-7-sonnet-20250219 (no thinking)    60.4%
    o3-mini (high)                              60.4%
    DeepSeek V3 (0324)                          55.1%
    ...
    Qwen2.5-Coder-32B-Instruct                  16.4%
    Llama 4 Maverick                            15.6%
    ...
    

    长上下文理解测试

    Fiction.liveBench for Long Context Deep Comprehension 测试了两款模型的长上下文表现

    long-context

    其他测试

    许多用户、组织在个人数据集上进行了测试,结果大致一样。


    这些测试,加上许多用户的实际体验反馈证明:Llama 4 远没有其宣传的优秀,甚至可以说看起来不像这个现在时候发布的模型。

    那么问题来了,这样一个模型( Maverick )究竟为何能在 LMArena 上拿下第二名呢。


    首先来看看 Arena 评分的原理:访问 LMArena 的用户被要求与两个身份被隐去的大模型对话,并选择他们认为更优秀的那个。选择完毕后,两个模型的身份会被揭示,并且得到的数据用于计算大模型的排名和得分。

    尽管 LMArena 在此前已经受到不少批评,认为其“更看重模型的输出格式和风格,而不是实际能力”,但是仍然在大模型评分领域受到较广泛的认同,因为他不像传统评分那样可以提前在测试集上进行训练,提高模型的表现。


    经过各种讨论和研究,用户发现,原来并不是提供商的配置有问题,而是 Meta 开源出来的版本和 Arena 上的版本确有区别

    具体来说,送 Arena 测的是 Meta 针对聊天专门微调的 Maverick 模型。他被训练地非常兴奋、激动以提高用户的新鲜感,从而提高得分。但是这样做使得模型的日常问答几乎不可用:光是说一句“你好”模型都会回复几千 Tokens ,并且在知识问答中产生大量幻觉(想体验的可以直接去竞技场 Direct Chat 栏目测试)。


    目前这种行为已经引起了对 Meta 的广泛批评。

    5 条回复    2025-04-07 13:11:33 +08:00
    Chaidu
        1
    Chaidu  
       8 天前
    使用大语言模型生成的就是大语言模型生成的,叠甲没用 /doge
    wyntalgeer
        2
    wyntalgeer  
       8 天前
    实测拉了
    tool2dx
        3
    tool2dx  
       8 天前
    Llama4 有两个大问题,第一他抛弃了粉丝的本地显卡步骤欲望(请问普通玩家,谁有能装下 109B 参数的 GPU )

    第二按照收费大模型的 API 调用标准,它的性能远远比不上同期 2025 发布的几个大模型。

    开源开了个寂寞,还不如 gemma3/phi4 可玩性高。
    proxyai
        4
    proxyai  
       8 天前
    实测拉垮
    Kisesy
        5
    Kisesy  
       8 天前
    原因是这个

    Llama4 的训练存在严重问题已经向 GenAI 提交辞职
    https://www.1point3acres.com/bbs/thread-1122600-1-1.html
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1467 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 16:54 · PVG 00:54 · LAX 09:54 · JFK 12:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.