Llama 4 发布以及其引起的争议

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

叠甲：我知道本文内容可能有些看起来像是大模型生成的，不过实际上是纯手工写的...

昨天（ 2025 年 4 月 6 日），Meta 宣布开源（开放权重） LLama 系列的最新作 LLama 4 ，包含三个版本：

Llama 4 Scout

109B 总参数，激活 17B
宣称“业界领先的 10M 上下文窗口”

Llama 4 Maverick

400B 总参数，激活 17B
宣称“在广泛接受的基准测试中表现优于 GPT-4o 和 Gemini 2.0 Flash 。”
宣称“在推理和编码方面实现与 DeepSeek V3 相当的结果——但仅使用一半的激活参数量。”
宣称“无与伦比的性价比，聊天版本在 LMArena 上的 ELO 得分为 1417 。”，同时 LMArena 上公布了对应的成绩。

Llama 4 Behemoth

暂未开放权重[1]
2T+ 总参数，200B+激活参数

初看下来，许多人会认为开源这两个模型又是长上下文，又是以低成本超过 4o / DS V3 ，理所应当是一个强大，至少有许多亮点的模型。然而，事实却完全不同：

很快，用户发现在 LMArena 上测试的中号模型 Maverick 和公开权重的模型在语言风格上差别很大，甚至都不像同一个模型。

这时，有部分用户猜测这是因为模型提供商的推理配置不正确，应当等待修复。

随后，更多基准测试对开源的两款模型进行了测试：

Aider Polyglot Benchmark

Aider 是一个开源的编程 Agent ，Polyglot Benchmark 是他们制作的多语言大模型基准。这一基准被认可度还是较高的。

...
claude-3-7-sonnet-20250219 (no thinking)    60.4%
o3-mini (high)                              60.4%
DeepSeek V3 (0324)                          55.1%
...
Qwen2.5-Coder-32B-Instruct                  16.4%
Llama 4 Maverick                            15.6%
...

长上下文理解测试

Fiction.liveBench for Long Context Deep Comprehension 测试了两款模型的长上下文表现

long-context

其他测试

许多用户、组织在个人数据集上进行了测试，结果大致一样。

这些测试，加上许多用户的实际体验反馈证明：Llama 4 远没有其宣传的优秀，甚至可以说看起来不像这个现在时候发布的模型。

那么问题来了，这样一个模型（ Maverick ）究竟为何能在 LMArena 上拿下第二名呢。

首先来看看 Arena 评分的原理：访问 LMArena 的用户被要求与两个身份被隐去的大模型对话，并选择他们认为更优秀的那个。选择完毕后，两个模型的身份会被揭示，并且得到的数据用于计算大模型的排名和得分。

尽管 LMArena 在此前已经受到不少批评，认为其“更看重模型的输出格式和风格，而不是实际能力”，但是仍然在大模型评分领域受到较广泛的认同，因为他不像传统评分那样可以提前在测试集上进行训练，提高模型的表现。

经过各种讨论和研究，用户发现，原来并不是提供商的配置有问题，而是 Meta 开源出来的版本和 Arena 上的版本确有区别。

具体来说，送 Arena 测的是 Meta 针对聊天专门微调的 Maverick 模型。他被训练地非常兴奋、激动以提高用户的新鲜感，从而提高得分。但是这样做使得模型的日常问答几乎不可用：光是说一句“你好”模型都会回复几千 Tokens ，并且在知识问答中产生大量幻觉（想体验的可以直接去竞技场 Direct Chat 栏目测试）。

目前这种行为已经引起了对 Meta 的广泛批评。

LLama 4

争议

LMArena

5 条回复 • 2025-04-07 13:11:33 +08:00