V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dsd2077
V2EX  ›  程序员

泼盆冷水, claude opus4.6 没有那么神!

  •  
  •   dsd2077 ·
    PRO
    ·
    dsd2077 · 19 小时 15 分钟前 via Android · 3836 次点击
    大家用 CloudOps 4.6 了吗?不知道大家体验如何?反正我用下来感觉提升真的不明显。但是如果打开 Twitter 会发现所有人都在吹:震惊!好厉害!天塌了!

    不管是在原有项目上进行功能开发,还是开发新项目,我都觉得模型的能力并没有很大的提升。

    我个人下一个暴论:三年之内 AI 只会有形式上的创新,而不会有根本上的进步。

    真正的突破还是要看伊利亚那些真正的研究人员,他们交出的作业。
    48 条回复    2026-02-11 17:20:27 +08:00
    windyboy
        1
    windyboy  
       19 小时 8 分钟前
    真的吗?理解物理世界规则的模型呢?
    BD8NCF
        2
    BD8NCF  
       17 小时 6 分钟前
    这几天用 cursor 写嵌入式代码。
    之前都是用 auto ,最近换成 opus 4.6, 确实令人震惊。
    让它写一个 kalman 滤波相关的东西,它生成的代码没达到我想要的效果,我自己调整,发现越搞越糟。最后就直接告诉它有什么问题,贴日志给它看,让它改。
    几个回合之后,几乎完美的完成。

    缺点就是花钱如流水,剩下的都是优点。
    lujiaxing
        3
    lujiaxing  
       17 小时 2 分钟前   ❤️ 3
    我想去洗车,洗车店距离我家 50 米,你说我应该开车过去还是走过去?
    DeepSeek:走过去
    阿里千问:走过去
    字节豆包:走过去
    腾讯混元:走过去
    ChatGPT:走过去
    Claude:开车去
    Grok:走过去
    Gemini:开车去
    potatowish
        4
    potatowish  
       16 小时 55 分钟前 via iPhone
    @lujiaxing 只有 Gemini 、Claude 回答是开车去,其他模型智商都不在线
    liyafe1997
        5
    liyafe1997  
       16 小时 50 分钟前
    @BD8NCF Auto 肯定不太行...很可能选的是 Cursor 自家的那个垃圾模型。但是 Opus 感觉并没有比 Sonnet4.5 / GPT5.x-Codex / Gemini 3 Pro 强多少
    OZephyr
        6
    OZephyr  
       16 小时 45 分钟前 via Android
    @lujiaxing 实际测试了一下,千问、豆包等几个 AI 的实际论点是“把钥匙交给洗车店工作人员,让他们洗”。
    bwnjnOEI
        7
    bwnjnOEI  
       16 小时 33 分钟前 via iPhone
    这种评论还是太主观不过你说推上有营销成份肯定没问题。首先要排除是不是使用官方模型然后再排除使用习惯最后一项确定你是比如高级架构师 写 cuda 内核等等
    gogo_tutu
        8
    gogo_tutu  
       15 小时 53 分钟前 via iPhone
    推特上那帮人没什么话题了就炒作
    darkTianTian
        9
    darkTianTian  
       15 小时 24 分钟前
    @lujiaxing 我觉得每人的结果可能有差异,claude 我不开思考模式,回答走过去。开了思考,回答开车。
    dsd2077
        10
    dsd2077  
    OP
    PRO
       15 小时 21 分钟前 via Android
    @bwnjnOEI
    模型和习惯都没问题,ai coding 高级选手了。我只是想说 opus4.6 没有比 sonnet4.5 或者 codex5.2 强多少,(因为凡是后者解决不了的问题丢给 opus4.6 极大概率还是解决不了)。出于成本考虑我反而更会选择后者。
    bwnjnOEI
        11
    bwnjnOEI  
       13 小时 31 分钟前 via iPhone
    @dsd2077 排除第一个因素,另外,这代 opus 确实退化了在 swe bench 上还是负优化,这版主要是面向通用型白领和 1m 上下文和多智能体协同甚至可能 dario 故意让你花费 token 更多。不过你说解决不了你的问题我打问号,cc 功能组合那么多 上下文组合效果千差万别,始终无法排出第二个问题。
    MIUIOS
        12
    MIUIOS  
       9 小时 41 分钟前
    除了更新到 1M 上下文 好像啥都没了
    lucifer9
        13
    lucifer9  
       9 小时 31 分钟前   ❤️ 2
    @lujiaxing #3 术业有专攻,这种抖个小聪明的问题是 Gemini 的舒适区。flash 还算正常点,给你看看 pro
    hengshenyu
        14
    hengshenyu  
       9 小时 10 分钟前 via Android
    @OZephyr 我问自助洗车店也是一样,千问豆包 DeepSeek 智商确实不如 gemini
    guiyumin
        15
    guiyumin  
       9 小时 6 分钟前
    @MIUIOS 我怎么还是 200k 上下文
    walkon
        16
    walkon  
       8 小时 59 分钟前
    @lujiaxing qwen3-max 开启思考后回答是开过去的
    ryne6
        17
    ryne6  
       8 小时 43 分钟前
    team 模式还不错 不会中断任务了
    MIUIOS
        18
    MIUIOS  
       8 小时 33 分钟前
    @guiyumin 你的上游接口不支持
    wuxilaoshiren
        19
    wuxilaoshiren  
       8 小时 15 分钟前
    Opus4.6 强太多了,我问了一个问题,我电脑上的小火箭怎么和公司 vpn 兼容,gemini 3.0 pro 耗费了接近 2 个小时,来回改配置来回折腾 都失败了,我用了 Opus4.6 就一二十分钟 3 次对话,解决了。。。。。。。。 完全不是一个档次的
    visper
        20
    visper  
       8 小时 10 分钟前
    @lujiaxing 这题有误解,也许你去洗车是去帮别人洗车,而不是洗你要开的这车呢。
    dsd2077
        21
    dsd2077  
    OP
    PRO
       7 小时 40 分钟前 via Android
    sphawkcn
        22
    sphawkcn  
       7 小时 34 分钟前
    @dsd2077 为毛 Composer 1.5 比 Claude 4.5 Sonnet 还贵。。。这么有信心。。。
    prosgtsr
        23
    prosgtsr  
       7 小时 15 分钟前
    为啥我看 twitter 大家吹的是 codex5.3 呢
    tohearts
        24
    tohearts  
       7 小时 2 分钟前
    AI 是协同作战工具,对于我来说已经比 opus4.5 表现更加优异。
    gjh
        25
    gjh  
       6 小时 41 分钟前
    GLM-4.7:开车过去
    gjh
        26
    gjh  
       6 小时 36 分钟前
    MiniMax: 腿着去,开着回!🚶‍♂️➡️🚗
    dsd2077
        27
    dsd2077  
    OP
    PRO
       6 小时 32 分钟前 via Android
    @sphawkcn 确实很离谱😂
    dsd2077
        28
    dsd2077  
    OP
    PRO
       6 小时 31 分钟前 via Android
    @prosgtsr codex5.3 良心啊,没加价,比 sonnet4.5 还便宜
    brucewzp
        29
    brucewzp  
       5 小时 53 分钟前
    @lujiaxing
    试了下,gemini 的神回复:
    如果你想锻炼身体,你可以尝试把车推过去。这样既锻炼了身体(走过去),又完成了洗车任务(车也到了),还节能环保保护了发动机。
    wangyaominde
        30
    wangyaominde  
       5 小时 52 分钟前
    AI 还是没有人离谱,我的建议是把车揣兜里,🙉洗好再揣回来
    zedpass
        31
    zedpass  
       5 小时 17 分钟前
    @sphawkcn Composer 1.5 其实是走 cursor auto 配额结算的,不占用 api 额度,所以虽然贵,但是性价比高
    jsyz
        32
    jsyz  
       5 小时 14 分钟前
    @lujiaxing 我自己使用各个模型默认选项测了一遍:千问,deepseek ,Gemini ,kimi ,智谱都过关了,有的还根据场景提出不同解决方案,Claude 失败。
    uni
        33
    uni  
       4 小时 26 分钟前
    写代码我更喜欢 codex ,但是 Claude 的 agent 能力一骑绝尘: https://v2ex.com/t/1188881

    我刚又测试了,同一个任务 opus 4.6 不到两分钟搞定,codex 5.3 走了无数弯路花了六分钟才搞定
    chengrui0428
        34
    chengrui0428  
       4 小时 0 分钟前
    @lujiaxing
    完了,我用的是假的 claude 吗?
    ![img]( https://imgshare.cc/dbskml6j)
    NGGTI
        35
    NGGTI  
    PRO
       3 小时 56 分钟前
    @lujiaxing 自己去问问就知道了。得自己验证下随机问了几个都能说开车去
    newtype0092
        36
    newtype0092  
       3 小时 53 分钟前
    @lujiaxing 这种问题完全没有意义啊,各种专业团队耗费心力堆大量数据搞出来的 benchmark 不看,靠这种脑筋急转弯来验证模型水平?
    realpg
        37
    realpg  
    PRO
       3 小时 46 分钟前   ❤️ 1
    神不神不是你能评价的

    用的人不知道神不神吗? 你自己天生对 ai coding 的提示能力差, 什么 ai 都不神
    dsd2077
        38
    dsd2077  
    OP
    PRO
       3 小时 37 分钟前
    @realpg 破防了?
    realpg
        39
    realpg  
    PRO
       3 小时 36 分钟前
    @dsd2077 #38
    啊? 我破啥防 我公司报销所有 AI 所有费用 什么我都能用 而且我什么用的都挺好
    MrBearin
        40
    MrBearin  
       3 小时 35 分钟前
    @lucifer9 感觉他在阴阳,哈哈哈
    nicewa
        41
    nicewa  
       3 小时 29 分钟前
    我问 grok 也是开车去,难道被老马看到修复了
    ihainan
        42
    ihainan  
       3 小时 25 分钟前
    多屏蔽几个出啥 AI 模型/产品就吹的人,你的 Timeline 就会干净很多。
    xmdbb
        43
    xmdbb  
       3 小时 2 分钟前
    @lujiaxing 为啥我的腾讯混元让我扛车过去
    pingxu
        44
    pingxu  
       1 小时 45 分钟前
    我用各家的免费版测试了一下,gpt 、Claude 和 grok 都说走过去,Gemini 说开车去,不过我朋友测了 gpt 让开车去,感觉有点随机性在里面。
    Perihe1ion
        45
    Perihe1ion  
       1 小时 34 分钟前
    @xmdbb 你这是下到正版的了
    junkei
        46
    junkei  
       42 分钟前
    @lujiaxing claude opus 4.6 回复认定步行为最优解决方案。
    走过去,50 米而已。

    Done
    走过去,50 米也就一分钟的事。开过去你还得找地方停车等着,没必要。 咋粘贴不了截图
    dsd2077
        47
    dsd2077  
    OP
    PRO
       40 分钟前 via Android
    @xmdbb 哈哈哈
    foryou2023
        48
    foryou2023  
       27 分钟前
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3384 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:48 · PVG 17:48 · LAX 01:48 · JFK 04:48
    ♥ Do have faith in what you're doing.