叠甲:我知道本文内容可能有些看起来像是大模型生成的,不过实际上是纯手工写的...
昨天( 2025 年 4 月 6 日),Meta 宣布开源(开放权重) LLama 系列的最新作 LLama 4 ,包含三个版本:
Llama 4 Scout
Llama 4 Maverick
Llama 4 Behemoth
初看下来,许多人会认为开源这两个模型又是长上下文,又是以低成本超过 4o / DS V3 ,理所应当是一个强大,至少有许多亮点的模型。然而,事实却完全不同:
很快,用户发现在 LMArena 上测试的中号模型 Maverick 和公开权重的模型在语言风格上差别很大,甚至都不像同一个模型。
这时,有部分用户猜测这是因为模型提供商的推理配置不正确,应当等待修复。
随后,更多基准测试对开源的两款模型进行了测试:
Aider Polyglot Benchmark
Aider 是一个开源的编程 Agent ,Polyglot Benchmark 是他们制作的多语言大模型基准。这一基准被认可度还是较高的。
...
claude-3-7-sonnet-20250219 (no thinking) 60.4%
o3-mini (high) 60.4%
DeepSeek V3 (0324) 55.1%
...
Qwen2.5-Coder-32B-Instruct 16.4%
Llama 4 Maverick 15.6%
...
长上下文理解测试
Fiction.liveBench for Long Context Deep Comprehension 测试了两款模型的长上下文表现
其他测试
许多用户、组织在个人数据集上进行了测试,结果大致一样。
这些测试,加上许多用户的实际体验反馈证明:Llama 4 远没有其宣传的优秀,甚至可以说看起来不像这个现在时候发布的模型。
那么问题来了,这样一个模型( Maverick )究竟为何能在 LMArena 上拿下第二名呢。
首先来看看 Arena 评分的原理:访问 LMArena 的用户被要求与两个身份被隐去的大模型对话,并选择他们认为更优秀的那个。选择完毕后,两个模型的身份会被揭示,并且得到的数据用于计算大模型的排名和得分。
尽管 LMArena 在此前已经受到不少批评,认为其“更看重模型的输出格式和风格,而不是实际能力”,但是仍然在大模型评分领域受到较广泛的认同,因为他不像传统评分那样可以提前在测试集上进行训练,提高模型的表现。
经过各种讨论和研究,用户发现,原来并不是提供商的配置有问题,而是 Meta 开源出来的版本和 Arena 上的版本确有区别。
具体来说,送 Arena 测的是 Meta 针对聊天专门微调的 Maverick 模型。他被训练地非常兴奋、激动以提高用户的新鲜感,从而提高得分。但是这样做使得模型的日常问答几乎不可用:光是说一句“你好”模型都会回复几千 Tokens ,并且在知识问答中产生大量幻觉(想体验的可以直接去竞技场 Direct Chat 栏目测试)。
目前这种行为已经引起了对 Meta 的广泛批评。
1
Chaidu 8 天前
使用大语言模型生成的就是大语言模型生成的,叠甲没用 /doge
|
![]() |
2
wyntalgeer 8 天前
实测拉了
|
![]() |
3
tool2dx 8 天前
Llama4 有两个大问题,第一他抛弃了粉丝的本地显卡步骤欲望(请问普通玩家,谁有能装下 109B 参数的 GPU )
第二按照收费大模型的 API 调用标准,它的性能远远比不上同期 2025 发布的几个大模型。 开源开了个寂寞,还不如 gemma3/phi4 可玩性高。 |
![]() |
4
proxyai 8 天前
实测拉垮
|
![]() |
5
Kisesy 8 天前
|