ty29022

NIST 的测试要比各家自己吹的口径靠谱吧

  •  
  •   ty29022 · 23 days ago · 1994 views
    14 replies    2026-05-05 12:55:56 +08:00
    v1
        1
    v1  
       23 days ago
    有一种“前朝的剑斩本朝的官”的意味
    longxinglink
        2
    longxinglink  
       23 days ago
    不知道 deepseek-v4-pro 除去玩酒馆还能拿来干啥,小型生产里完全没有性价比场景
    940i3s34v4F1HW41
        3
    940i3s34v4F1HW41  
    PRO
       23 days ago
    我很确信这是 nist 作为政府部门的文书工作,而已
    codehz
        4
    codehz  
       23 days ago
    国产 ai 已经彻底落后了,差距还在不断增大,明年这个时候大概就会落后一年了(按图表来说)
    cnnblike
        5
    cnnblike  
       23 days ago
    GLM 都没有,这个也太那啥了……
    laminux29
        6
    laminux29  
       23 days ago
    NIST 居然没把 Google Gemini 加入竞赛。全球第一的搜索引擎巨头 + 自研芯片,这两个因素加在一起,国产 AI 要追赶,只能说还要走很多弯路才行。
    niubilewodev
        7
    niubilewodev  
       23 days ago via iPhone
    这种报告指不定就是花钱请德勤之类的外包做的……
    catazshadow
        8
    catazshadow  
       23 days ago via Android
    @codehz 这里面还没有 Mythos
    FlashEcho
        9
    FlashEcho  
       23 days ago
    你看这个还不如看 LiveBench 和 LLMArena ,人家至少是全开源的,你列的这个里面有 22%的测试是闭源的
    WuSiYu
        10
    WuSiYu  
       23 days ago via iPhone
    任何 bench 都是有偏向性的
    当然,你可以挑一个自己更喜欢的来相信
    roswellian
        11
    roswellian  
       23 days ago
    现在的 NIST 早就不是过去的 NIST 了...有能力的去了工业界,能力一般的又不是三代根正苗红的公民又做不到核心职位,拿绿卡的更不受待见。
    sommio
        12
    sommio  
       23 days ago via Android   ❤️ 2
    @FlashEcho
    闭源才有看的必要啊,公开测试集一旦流行起来,
    很快 230B 的模型就行跟自身参数量十倍的模型基准差不多。

    这个测试全靠那几个未污染测试集拉开差距,
    不然中美模型差距就只有 1~2 个月了。
    sommio
        13
    sommio  
       23 days ago via Android   ❤️ 1
    至于 LLMArena ,这个榜能靠掐媚提升排名,
    当年 Llama 4 这样搞已经把这个榜玩臭了。
    catazshadow
        14
    catazshadow  
       23 days ago via Android
    这里好多应激的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4999 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 90ms · UTC 05:40 · PVG 13:40 · LAX 22:40 · JFK 01:40
    ♥ Do have faith in what you're doing.