NIST 的测试要比各家自己吹的口径靠谱吧

nist

测试

靠谱

14 replies • 2026-05-05 12:55:56 +08:00

1

v1

23 days ago

有一种“前朝的剑斩本朝的官”的意味

2

longxinglink

23 days ago

不知道 deepseek-v4-pro 除去玩酒馆还能拿来干啥，小型生产里完全没有性价比场景

3

940i3s34v4F1HW41

PRO

23 days ago

我很确信这是 nist 作为政府部门的文书工作，而已

4

codehz

23 days ago

国产 ai 已经彻底落后了，差距还在不断增大，明年这个时候大概就会落后一年了（按图表来说）

5

cnnblike

23 days ago

GLM 都没有，这个也太那啥了……

6

laminux29

23 days ago

NIST 居然没把 Google Gemini 加入竞赛。全球第一的搜索引擎巨头 + 自研芯片，这两个因素加在一起，国产 AI 要追赶，只能说还要走很多弯路才行。

7

niubilewodev

23 days ago via iPhone

这种报告指不定就是花钱请德勤之类的外包做的……

8

catazshadow

23 days ago via Android

@codehz 这里面还没有 Mythos

9

FlashEcho

23 days ago

你看这个还不如看 LiveBench 和 LLMArena ，人家至少是全开源的，你列的这个里面有 22%的测试是闭源的

10

WuSiYu

23 days ago via iPhone

任何 bench 都是有偏向性的
当然，你可以挑一个自己更喜欢的来相信

11

roswellian

23 days ago

现在的 NIST 早就不是过去的 NIST 了...有能力的去了工业界，能力一般的又不是三代根正苗红的公民又做不到核心职位，拿绿卡的更不受待见。

12

sommio

23 days ago via Android

2

@FlashEcho
闭源才有看的必要啊，公开测试集一旦流行起来，
很快 230B 的模型就行跟自身参数量十倍的模型基准差不多。

这个测试全靠那几个未污染测试集拉开差距，
不然中美模型差距就只有 1~2 个月了。

13

sommio

23 days ago via Android

1

至于 LLMArena ，这个榜能靠掐媚提升排名，
当年 Llama 4 这样搞已经把这个榜玩臭了。

14

catazshadow

23 days ago via Android

这里好多应激的