V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
catwalk
V2EX  ›  Claude

最近测试了几款 AI 国产模型,结果比我想象的还复杂

  •  
  •   catwalk · 12 天前 · 4549 次点击

    最近这两周,我一直在使用 cc + ccr 对不同 AI 模型的能力测试,想了解它们在实际应用中的表现。通过这些测试,我对几个热门模型有了一些使用上的心得和体会。

    首先是 KimiDeepSeek。官网版,但体验并不理想。两者在执行时都显得有些“力不从心”,不仅效果不如预期,而且余额很快消耗光,主要都限速(要充钱才能变快),几乎没能完成什么有价值的输出。Kimi 我用于写代码较多,Deepseek 用推理较多,尽管如此,我还是持续关注它们,期待能有所改进。

    后续出的 DeepSeek-V3.1 在最初测试时,竟然出现了“极”这样的异常情况,后面好像修复更新,也是拿来推理用。

    接着,我试了 GLM-4.5。令我意外的是,GLM-4.5 的表现超出了我的预期:它的速度相对更快,且能够产出不错的效果。在与其他模型对比时,GLM-4.5 无疑给了我更多的惊喜,它的稳定性和表现让我觉得性价比更高。缺点就是上下文有点短。好消息是有包月套餐,算是 cc 的平替版,但在隔壁站传出扣费问题,写的文档不清晰等问题。

    现在又有两个新模型发布了——qwen3-max-previewkimi-k2-0905256K。我首先测试了 kimi-k2-0905256K,发现它在前端的表现似乎不如 GLM-4.5,虽然其他方面的性能还没来得及详细测试,但初步使用下来,给我的感觉并不算太突出。

    接着,测试 qwen3-max-preview,这次的体验可以用“崩溃”来形容。测试过程中,速度极慢,不仅如此,出错了还说修复问题,结果还把生成的文件都删掉了。这个过程让我产生了强烈的幻觉感,似乎 AI 开始“自己”不知道该生成什么了,完全没有方向。介绍写着这次版本减少了幻觉的现象,但从实测结果来看,幻觉问题依然存在,甚至比之前的 qwen 版本还要明显。

    这两个新模型,目前的体验并没有带来太多突破。像 GLM-4.5 这样的模型,稳定性不错,另外据说 GPT-5 的效果有惊喜,后面再测试其他模型看看。综合来看,目前最好的效果还是 cc 。

    各位都用哪些模型?

    53 条回复    2025-09-15 14:06:30 +08:00
    catwalk
        1
    catwalk  
    OP
       12 天前
    对了,最近折腾下来,发现还是不要太折腾的好,以上测试只是研究学习为主,真正应该专注于业务,毕竟折腾花的时间不太值得
    haiku
        2
    haiku  
       12 天前 via Android
    体验就用各种服务商的免费版
    Cerebras 是个做专用推理芯片和服务的,上面的 qwen 3 coder 480b 速度快有免费额度,写写 Python 脚本、SQL 还行
    yannxia
        3
    yannxia  
       12 天前
    国产模型在 Coding 方面都差点意思,Qwen Coder & K2 算是最好了,和 Gemini Pro 的差距还很大,就不提 Cluade opus 了
    catwalk
        4
    catwalk  
    OP
       12 天前
    @haiku 现在测试 qwen 3 coder 是要比 qwen3-max-preview 快点 还好点,写脚本基本上都不差,要看综合能力,毕竟拿来干活的
    catwalk
        5
    catwalk  
    OP
       12 天前
    @yannxia 已经在进步了,其实有惊喜的,差距是有的
    CY4suncheng
        6
    CY4suncheng  
       12 天前
    我用的都是官方的 API + Claude code ,KIMI token 消耗的是真快,我一天花了 60 多块,之后换到了 deepseek ,感觉好多了,至少 tokens 消耗没那么多了
    catwalk
        7
    catwalk  
    OP
       12 天前
    @CY4suncheng 花钱不办事才是关键,deepseek 比 kimi 好点,综合能力不错
    lucifer9
        8
    lucifer9  
       12 天前
    qwen max 还没试过。前几天 A 社疯狂封号的时候用高粱米做代餐效果还行: 质量好不好不说,起码人家够快
    catwalk
        9
    catwalk  
    OP
       12 天前
    @lucifer9 很早就封号了,只不过现在更加疯狂,目前还在综合测试,glm4.5 确实在国产模型中(目前情况),看 glm 的营销也是目标明确,就是做 cc 的平替
    CY4suncheng
        10
    CY4suncheng  
       12 天前
    @catwalk #7 我觉得如果没有 anthropic 的订阅,Claude code 用哪家的都会效果打折的,所以要不就花钱上订阅,要不就干脆用其他的好了
    xctcc
        11
    xctcc  
       12 天前   ❤️ 1
    glm 那个官网购买套餐要支付宝刷脸实名直接把我劝退了
    yellowbean
        12
    yellowbean  
       12 天前 via Android
    qwen 那个上下文仅是谷歌的 1/4 不知道怎么想的 编程这种场景感觉上下文特别影响实际体验 尤其项目稍微复杂点
    catwalk
        13
    catwalk  
    OP
       12 天前
    @yellowbean 芯片问题?
    kongkx
        14
    kongkx  
       12 天前 via iPhone
    deepseek 3.1 + grok-code-fast 简单任务还行。 复杂点还是 grok 4 + grok-code-fast 。 蹭 cline 的免费额度。 感觉 Claude code 有点费 token ,纯 deepseek 3.1 都用不起。
    alex8
        15
    alex8  
       12 天前 via iPhone
    问了个 24 点游戏,Kim 一直说找到答案了然后给了个错误答案,唠叨了 5 分钟突然中断,感觉是到输出 token 的上限被系统强制终止回话
    234ygg
        16
    234ygg  
       11 天前
    综合实力没一个能打网页版 gpt5thinking 的,而且全都遥遥落后,真没什么好折腾的,用美区 Apple store 直接订阅难度也很低。
    顺带一提,很多人用的 api 都是假的,要么就是 ip 太脏被降智的,要么就是共享账号被降智的,所以简中圈 gpt 风评不太好
    lieliew
        17
    lieliew  
       11 天前
    gpt5high 用得舒服
    haiku
        18
    haiku  
       11 天前 via Android
    @234ygg GPT 的 API 我只敢用官方和 Azure 的
    Azure 的水平对比官方、Cursor 里的,看起来思考时间够长,回答也没打折扣
    XuanYuan
        19
    XuanYuan  
       11 天前 via Android
    用了一圈,我现在是 Grok 的忠实用户。
    icyalala
        20
    icyalala  
       11 天前
    现在我看到楼主这种排版和标点良好,有加粗和分段,格外喜欢用引号,说话文邹邹的风格,
    就有一种很明显的不似人写的感觉。。。
    laikick
        21
    laikick  
       11 天前
    能信国产模型的这辈子都有了 特别最近还不让用 nv 卡了 通通要支持 huawei
    zisen
        22
    zisen  
       11 天前 via iPhone
    gpt5 话太多了,问一个简单的问题能回复一大篇文章,还要自己筛选其中的有效信息
    Obj9527
        23
    Obj9527  
       11 天前
    GPT5 前几天还好,最近两天感觉有点降智
    至于编程我喜欢用 Claude Sonnet4
    catwalk
        24
    catwalk  
    OP
       11 天前
    @alex8 官网还是其他的免费额度?如果说免费额度,有时候也遇到截流 中断
    catwalk
        25
    catwalk  
    OP
       11 天前
    @234ygg 是的,不用中转,降智影响生产力,玩玩或者小东西 还可以用
    catwalk
        26
    catwalk  
    OP
       11 天前
    @XuanYuan 曾经一直用 Grok ,就是因为他的数据与 x 关联,但是上次充值 5 美刀送 150 刀/月,没用多久,连 5 美刀都不见了,联系客服都没得到回复,这有点黑,说没就没,拉黑不用 x ai 了
    catwalk
        27
    catwalk  
    OP
       11 天前
    @icyalala 内容是我自己写的,排版是让 ai 排版的,但他给我改了一些内容,我看了几遍 还特意改掉了,可能还有一些 ai 味在,这是我讨厌的地方,但我排版本身不好,所以用了一下 ai ,见谅
    catwalk
        28
    catwalk  
    OP
       11 天前   ❤️ 1
    @laikick 本身不太想回复这个,国内这个情况我大概了解一些,在有限的资源下还能做出来,有进步,值得鼓励。

    不让 nv 卡 支持国产芯片产业 那也是大国要走的方向,不能被卡脖子,但是没有新的光刻机,先进的只能让台积电代工,而因为地缘 zz 问题,现在只能用旧设备去想办法做。在这个情况下,能怎么样呢

    首先我是测试和体验国产模型,国外的芯片是先进,但你说 “信国产模型的这辈子都有了”,就有点过了。

    就简单说 国外的 AI 封号问题吧,1 是防止滥用,2 是地缘 zz 问题,3 是最近 a 社的问题,如果发展方向都是 3 这种问题,就被卡脖子,这时候国产模型的模型效果好,有了替代品那不是好事吗。

    普通老百姓使用 Ai ,跟 gj 层面不一样,这其实就是 AI 竞赛,人才方面基本上不是问题,现在问题是先进芯片被卡,现在是地缘 zz 博弈的问题。

    换个角度来看,美国也不被我们卡稀土的脖子吗,难道他们信他们的稀土段时间能发展起来,还跑去深海挖稀土,或者信他们的制造业,这辈子不也有了。
    Liftman
        29
    Liftman  
       11 天前
    cc max 和 codex 。 没有必要折腾。。。

    而且很多时候。测试的时候,能力部分接近只能说在简单情况下没问题。。

    当你的任务变大,复杂度变高。他的正确率降低到哪怕只有 95%。。多轮对话之后的糟糕性概率会指数级起飞。。。

    到时候还不是浪费自己的时间去找问题。。。

    这就是为什么 cc 有一个 plan mode 。能用最好的模型进行第一步。保证底子。。

    国产模型可以解决小问题,但是底子不行,永远不适合做工程性工作。
    catwalk
        30
    catwalk  
    OP
       11 天前
    @Liftman 同意,正解
    johnny2inc
        31
    johnny2inc  
       11 天前
    我这个只了解点前端三个和 Python 皮毛的小白这两天也在用 Claude Code 和 Claude Code Router 开发我人生第一个项目。

    最初我还没了解到 CCR ,又因为不能稳定地使用 A 社的服务,所以我一开始就只是改配置文件,然后用了硅基流动的 Kimi K2 。

    因为我从来没正经编程过,之前也没用过 Cursor ,所以我一上手 CC (虽然用的是 Kimi K2 模型),就感觉卧槽卧槽牛逼牛逼。

    不过,这个我个人理解不算很难的项目,用掉我硅基流动里二百多块的额度后,还是没有搞出可用的版本。

    过了一天,我了解到 CCR 这个项目,可以更方便地使用更多的渠道的模型了,我先换上了 gemini-2.5-pro 。这是我之前玩酒馆申请的 API ,套了一个轮询项目,玩酒馆还挺好使的。但用在 CC 上,各种报错,好像是截断很严重。最近没玩酒馆,不清楚酒馆里使用是不是也是截断严重。

    后来我换成了各种渠道的 qwen3-coder ,哇,不知道为什么,就是感觉比 Kimi K2 强好多,项目推进速度快了很多。

    我可以说是不懂编程,基本上都是 CC 在操作,除了之前 K2 花掉的二百多额度,今天 qwen3-coder 大概几个渠道又总共调用了 1500 次,然后目前除了前端部分地方很丑,我这个小项目感觉已经可用了。

    目前没在 CC 里用过 Claude 系列的模型,也还没尝试过 GLM-4.5 ,gemini-2.5-pro 在我这又基本不可用。

    只谈 qwen3-coder 和 Kimi K2 ,以我的体验,个人感觉 qwen3-coder 比 Kimi K2 强。

    这个小玩意儿开发完之后,下一个小玩意儿打算全程使用 GLM-4.5 试试看。

    最后,顺便问一下,CCR 里默认、后台、思考、长上下文、网络搜索、图像这几个模型你们都是设置的哪些模型?
    我现在网络搜索选择使用 gemini-2.5-flash ,后台使用硅基流动里免费的 deepseek-ai/DeepSeek-R1-0528-Qwen3-8B ,其他三个都用的是 qwen3-coder 。
    jjwjiang
        32
    jjwjiang  
       11 天前
    @234ygg 有没有什么指标能看出来被降过?
    96
        33
    96  
       11 天前
    楼主的测试貌似没有自己的指标。

    全文描述语句使用了:

    “理想,力不从心,不如预期,预期,惊喜,官网版和不错的效果”等。

    得出的结论:

    “比我想象的还复杂”
    leonleung
        34
    leonleung  
       11 天前
    Kimi 充了一百,用 k2 很快就用光额度了。。。效果一般般
    catwalk
        35
    catwalk  
    OP
       11 天前
    @johnny2inc ccr 作者说过,让专业的模型做专业的事,所以我也挺喜欢用 ccr ,主要学习研究,因为都是简单测试,所以只是体验分享,目前测试,小的东西 GLM-4.5 比较听话,大一点的项目 据说因为上下文短,效果也不理想,有在传智普在弄 256k 上下文,后面应该会更好点。

    有时间可以折腾,没时间直接一步到位,我主要是想了解下各个模型的专长在哪,更好利用。也想看看各个模型之间的差距。

    搜索和后台都用 gemini-2.5-flash ,后台注意,有些免费是限速。

    默认看你认为哪个好,作为主力就用哪个。

    上下文 gemini-2.5-pro ,或者其他 claude-sonnet 、claude-opus 。
    catwalk
        36
    catwalk  
    OP
       11 天前
    @96 简单测试,个人感受,不是专业测评,见谅,只是分享一下
    catwalk
        37
    catwalk  
    OP
       11 天前
    @leonleung 感觉比 cc 、gpt-5 还要贵,毕竟按干活来算,要做出东西才能算性价比,做不出东西等于浪费了
    uni
        38
    uni  
       11 天前
    gpt plus 会员 20 美元一个月,codex 无限量。我感觉这 20 美元是我这辈子花得最值的钱
    lishunjie
        39
    lishunjie  
       11 天前
    坚定不移的使用 ChatGPT Plus 已有 2 年,这 2 年,隔一阵子蹦出来一个大模型号称对标 ChatGPT 3.5 、4.0 、4.5 ,还好没折腾,选择第一梯队领头羊准没错。
    vipfts
        40
    vipfts  
       11 天前
    物理移民难, 数字移民还不简单
    Wenstor
        41
    Wenstor  
       11 天前
    @catwalk #4 大佬,因为我有一张 4060Ti 16G 内存的显卡了,我想再整个 5600MHz 128G 内存的极魔客 k12 AMD Ryzen™ 7 H 255 ,8 核 16 线程,Zen 4 处理器,自带 oculink 的小主机,用来本地跑 Qwen3-coder 模型,看看代码使用,请问这个配置可以吗?或者有什么建议的能够流程跑 Qwen3-coder 模型(模型具体的量化版本还没考虑清楚),速度还可以的配置?只做选配置参考使用,大佬请放心建议!感谢!
    catwalk
        42
    catwalk  
    OP
       11 天前
    @uni 准备开,codex 听闻比 cc 还好,是吗,实测怎么样
    catwalk
        43
    catwalk  
    OP
       11 天前
    @Wenstor 抱歉,我不是什么大佬,只是玩玩,硬件这块不在行,可以问问 gpt
    DivSoup
        44
    DivSoup  
       11 天前
    glm-4.5 效果很不错,主要是包月很便宜。
    Wenstor
        45
    Wenstor  
       11 天前
    @catwalk #43 好的,你的配置方便分享下我参考参考吗? CPU 型号和内存大小这一块
    catwalk
        46
    catwalk  
    OP
       11 天前   ❤️ 1
    @Wenstor 可能你误会了,我只是用 APi ,不是本地模型
    killua67
        47
    killua67  
       10 天前
    和我感觉也差不多,kimi 感觉太慢了,ds 就不说了,qwen code 感觉效果和价格不匹配,GLM 是综合不错的
    catwalk
        48
    catwalk  
    OP
       10 天前
    @killua67 qwen coder 之前还算不错,但这次的 qwen3-max-preview 比较失望,曾经很多遍,有点不如 kimi-k2-0905256K ,现在测试的 kimi-k2-0905256K 和 glm4.5 差不多了,感觉 k2 还不错,因为上下文大点,只要提示词足够详细,还是可以的
    oncethink
        49
    oncethink  
       9 天前
    目前在用 TRAE 、GLM-4.5 + CC
    TRAE 是比较便宜能用上 Claude Sonnet 4 的方式了
    GLM-4.5 的能力比 Claude 差一点,但是配合 cc 用起来非常舒服,做仓库的一些问答,写一些小脚本都非常好使
    catwalk
        50
    catwalk  
    OP
       9 天前
    @oncethink 可以考虑 codex ,有点被惊艳到了,特别是做原型验证阶段,非常好
    layxy
        51
    layxy  
       7 天前
    GLM-4.5 感觉挺好的,查一些技术的用法给出的答案挺准确的,用了 claude4 真假参半,浪费时间,就是 GLM-4.5 的上下文有点小
    catwalk
        52
    catwalk  
    OP
       7 天前
    @layxy 现在我用 ccr+gemini+codex ,感觉非常好,在于分析项目和架构和优缺点都能分析出来,而不是单纯的代码方面强,而是思考能力强,原来只用 CCR+ GLM 总感觉缺点什么,现在这么用才发现打开新世界
    alexluo1
        53
    alexluo1  
       3 天前
    Claude code 5x 日常编码,windsurf + GPT5-high 用来处理需要深度推理的问题

    cursor 取消了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4984 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 05:54 · PVG 13:54 · LAX 22:54 · JFK 01:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.