kimi K2 Thinking 都这样的玩的话，如何作为参考依据呢？纯刷榜？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 91 天前的主题，其中的信息可能已经有所发展或是发生改变。

体验和榜单的不一致，没有个说法吗？
纯纯刷榜？

Thinking

榜单

20 条回复 • 2025-11-13 15:16:07 +08:00

daybreakfangyang

2025 年 11 月 10 日

邪修

jasonjie2015

2025 年 11 月 10 日

每次国产大模型上新版本都是说超越了 Claude ，但是实战基本上是很明显感受的到差距的。

clarkethan

2025 年 11 月 10 日

放心，大家都这么完，不止国内厂商，只是有些告诉你了，有些你不知道而已，还是以实际使用体验为准吧

xuhengjs

2025 年 11 月 10 日

所以，是不是 Kimi k2 跑出来的，大力飞砖也是水平啊

ptstone

2025 年 11 月 10 日

可能前端 css,js,java python c++ 这种最通用的语言和框架确实，国产的还可以,前端 web 确实感觉很优秀，但凡小众的东西，开源框架什么的，国产的真的不懂，知识面太窄，训练的东西就是那些科目，其他东西都是瞎回答

xiqingongzi

2025 年 11 月 10 日

是的。作为某小龙的模型产品，补充一些我的看法（仅个人看法）
评测和体感不一致

1. 作为终端用户，我的建议是，不要太相信榜单，只作为参考，甚至也只能作为参考。原因是榜单本身是一个开卷考试，理论上如果你想考高分，你可以塞尽可能多的数据拟合题目，以获得足够高的分数。（为什么不是每个模型都刷满分？因为还需要加入其他类型的数据，以确保模型的在其他榜单效果上足够好）。所以，榜单看看就行。关键还是自己的使用体感或者自己的评测指标。

2. 关于打榜推理：打榜推理的好处是用量可控加时间短，所以可以上八路推理；得到比较好的效果。但如果是日常使用，一个是损耗比较大，因为日常的问题往往不需要那么多并行推理选其一（大部分问题没那么复杂，这也是为啥 claude code 把 ultrathink 作为一个单独的 magic word 来使用）；另外一块是要考虑到成本，国内的竞争非常的卷，以至于各家可能都是贴着成本在做，甚至亏本在卖 API ，这样导致其实很难会选择给你最强的模型推理方案。

serco

2025 年 11 月 10 日

是不是 heavy 跑出来不是 huggingface 上直接可以看到的吗？ https://huggingface.co/moonshotai/Kimi-K2-Thinking

yuhaofe

2025 年 11 月 10 日

就不能自己去看一眼吗，heavy 对标的也是其他模型的类似模式

Heavy Mode: K2 Thinking Heavy Mode employs an efficient parallel strategy: it first rolls out eight trajectories simultaneously, then reflectively aggregates all outputs to generate the final result. Heavy mode for GPT-5 denotes the official GPT-5 Pro score.

yuhaofe

2025 年 11 月 10 日

https://moonshotai.github.io/Kimi-K2/thinking.html
而且官方的技术博客着重晒的几个图表根本就没有用 heavy mode 的成绩

Leoking222

2025 年 11 月 10 日

国内：跑分没输过，实战没赢过

Leoking222

2025 年 11 月 10 日

@jasonjie2015 国产所有的模型都在对比 Claude ，但其实他们都只达到了 Claude sonnet 3.7 的水平 🤣

maolon

2025 年 11 月 10 日

首先所有榜单都只能是参考，每个人的用法天差地别，其次这些榜单每一个都是有侧重点的
另外还有一个很简单的判断方法，什么时候 claude 和 openai 开始对标国产模型了，那他们就真超越了。
谁对标谁就用被对标的那个, simple as that

fbu11

2025 年 11 月 10 日

跟国内还是国外没关系，GPT5 也一样，每个大模型的跑分榜单模式都是这样的，他们上榜说是吊打 XXX 模型，都是有特定条件的

lance07

2025 年 11 月 10 日

都这样，gpt 之前还测评作弊。差距有但不是在这里

snw

2025 年 11 月 10 日 via Android

试过用免费版的 K2 Thinking 模式找些数据，结果思维陷入死循环了：
> 一会儿说我在网上找到了一个数据 a ，但很难找到其他数据，也许我应该去官方信源找数据。
> 过了十来分钟，又说我在网上找到了一个数据 a （和上面一样），但很难找到其他数据，也许我应该去官方报告找数据
> ......
如此循环了将近十次，然后直接清空了前面所有思考过程，输出空白。旁边提示可以试试付费版投入更多算力😂

snw

2025 年 11 月 10 日 via Android

@snw
又看了下，是提示“深度研究额度已用尽”。
反正看试用版这表现我是不敢付费的，看起来额度被死循环耗尽了。

zhangeric

2025 年 11 月 10 日

楼主就是把外国人想的太好了啊.

zhzy

2025 年 11 月 10 日

Gemini/GPT 有的时候还是能很明显感觉到降智的(即使是付费), 感觉这种虽然很难受但是也没什么办法

jamesjammy061

2025 年 11 月 11 日

GPT 降智太严重了

haoxiaoru

2025 年 11 月 13 日

那个推主是纯纯的误解：heavy 模式对比的是其他模型的 heavy 模式，而且结果只放到了大对比表中，宣传的主 Benchmark 图里都是普通模式的结果，根本没有放 heavy 模式的结果。见这里的脚注文字 https://huggingface.co/moonshotai/Kimi-K2-Thinking