最近使用几个 AI 编程模型的一点感受

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 55 天前的主题，其中的信息可能已经有所发展或是发生改变。

在对比使用了 WindSurf Pro/Trae Pro/通义灵码等辅助编程工具后，上周还是决定购买了 Github Copilot Pro 套餐运行在 VSCode 上, 算是暂时在价格和能力之间取得了平衡。

在这几天尝试开发一个浏览器插件的过程中，通过来回切换几个模型，发现他们各自还是挺有特色的。

最开始用 Claude Sonnet 4 。总结是：适合开荒。做新项目的时候，基本上能根据要求把结构搭建好，功能完成度很高，但是到后面改一些 bug 的时候似乎总也找不到重点，比如要实现查找页面元素去点击，它一开始就把类选择器的名称搞错了（不去找页面的真实元素，而是根据经验去找带点击特征的元素），当我要求它仔细查找时，它会不断把复杂度加大，去添加很多的匹配规则，甚至还让它去点击里面所有的嵌套元素，跳不出去了。
当我意识到它进入死胡同后，就切换到 Gemini 2.5 Pro 。总结是：适合改 bug 但小题大做，不适合推进项目。简单描述 bug 后，它给出了方案，并修复了这个点击问题，但是当我想继续做下一个功能的时候，发现它洋洋洒洒说了一大堆，最后把前面的功能给改没了。后面我发现这个问题挺严重的，它很喜欢边做边重构代码，导致我很沮丧，只能要求它别改，中间还骂了几句，很奇怪的是它道歉了后还真的修复了，整个过程就是挺累的，要来回聊好几次才能把一个功能固定下来。。。可能是我设置的规则不太对？
后来切换到 GPT-4.1 , 总结是：适合逐个小功能爆破。给他一堆要求，没有废话，thinking 一会后就会改一点点地方，让我重试。70%情况是成功修复问题的，剩下 30% 我要求继续检查，它也一样少言寡语，然后只修改一点点。

目前项目核心功能接近稳定，我已经主用 GPT-4.1 了。主要是它不会有大片的响应文本把整个 agent 窗口占满，因为我仔细看过了，像 Gemini 2.5 pro 在响应文本里解释它多牛逼的，（ 1 ）牛逼的技术我看不懂（ 2 ）看得懂的代码我自己也会写。所以，我为什么要听你絮叨呢？

Claude Sonnet

Gemini 2.5 pro

gpt-4.1

28 条回复 • 2025-08-07 17:39:12 +08:00

pobo

55 天前

我用的 cursor ，还可以。
不过项目太大了，它就不行了，自己在哪瞎改、乱改

ihainan

55 天前

如果是修 bug ，我个人习惯的做法是，Cursor 先让 o3 分析问题的根本原因和给出修改建议，再使用 Claude 4 Sonnet 二次审核，最后再让 Claude 做具体的代码实现。不过这样会导致 Cursor 很快就把额度用完了，所以我一般是 Cursor + Claude Code 并行在用。

Gemini 2.5 Pro 在编程领域只适合非常需要长上下文的场景，废话太多了。不过我倒是天天在白嫖 Gemini CLI ，用来做某些领域的 Agent ，效果可以接受。

nmap

55 天前

Github Copilot Pro 哪里买的？多少钱？

Fike

55 天前

强推 augment ，好用的一批

my101du

55 天前

@ihainan 非常感谢。老哥应该是资深 AI 程序员包工头了。

my101du

55 天前

@Fike 这不是口袋里没钱么。。。所以在价格/效果平衡后，选了 Github Copilot Pro

jerseyhero

55 天前

从 Cursor 转到 augment 了，感觉就是 augment 对项目的理解跟掌控力比 cursor 强的太多了，目前从 50 美金的 plan 转 100 美金了。

pike0002

55 天前

现在哪家从费用上来说性价比最高啊？

Fike

55 天前

@my101du #6 我目前还在用试用的，注册了好几个号

msg7086

55 天前

Gemini 2.5 Pro 每天 100 条不限长度免费请求，Flash 更多，我拿来干简单的活全免费，质量也不算差。
要说性价比的话可以说是完胜了。
真到了搞不定的时候再换用别的收费模型就好。

maolon

54 天前

我个人体验的话，都是旗舰模型（ claude 4, gemini 2.5 pro..之类的）那么 coding agent 设计的好坏大于模型选择，而 coding 流程设计又大于 coding agent 的选择
就 agent 本体设计好坏来说，我目前没见过任何一家能超越 claude code 的设计（哪怕 claude 4 在处理复杂问题的实际能力上不如比如 2.5 pro 这样的模型）
而流程好坏上来说，我觉得 kiro 是这么多家里最好的（基于 spec 流程），当然他那套东西也不是专属的，你可以任意复刻到自己用的顺手的那个 agent 上去，我自己就搞了个 cc 版本的

XTTX

54 天前

CC max, 今天一边看片一边让它写页面。"Add a space at the end" . Opus 真的在代码里加一个空格 ...

tangknox1

54 天前

claude 4 准确度最高，适合做一些小型的程序开发，deepseek 写前端还行，后端小型项目开发就不行了，库里很多数据都太旧，比如一些国际知名的框架，Grok ai 一大堆废话，实在受不了他，但是再上下文连贯性、上下文分析层面确实不错，同样，只适合做一些前端或者非常简单容易的小型应用程序，至于 GPT 、Gemini 这些，基本不适合整体完整需求的中小型程序应用开发，并且 AI 库中的很多框架相关的知识也是比较旧。

综合来说，如果你只是想修改 BUG ，写前端代码，任何一款都差不多，
如果是用来做一些中小型程序应用，比如企业网站管理系统、带后台的 web 应用系统，最好的搭配是 claude + deepseek 或 GTP 组合来用。

但是，想把 claude 4 用好，让他尽量少干点傻事儿，那就要十分精准的命令指示，并且要按照英语语句的那种思维语言，如果用白话文去对他下命令，估计会把你惹恼。

mlzboy

54 天前

@Fike 用过 cursor augment ，确定 augment 更好，但是 claude code 没有用过，比 augment 好么？

mlzboy

54 天前

@jerseyhero 有没有用过 claude code,我目前也是 augment 100$

terranboy

54 天前

LZ 用的好像都是快被淘汰的东西。。。试试 claude code 吧没有对比就没有伤害

Fike

54 天前

@mlzboy #14 我也没用过 claude code ，太贵了，还有怕封号，不过 augment 对我来说很强了，底层也是 claude 的模型

gnosis23

54 天前

vscode 压缩了上下文吧，所以到后面效果就不好了。lz 试下 claude code

qwwe01

54 天前

@terranboy 和 github copilot 差别很大吗

Dlad

54 天前

退了 cursor 年付，买了美国服务器用 claude code
目前，前后端、flutter 、ts 都写的很好。FYI.

webcape233

54 天前 via iPhone

和我感受一样

xuegy

54 天前 via iPhone

写 python 的话，什么模型都能糊弄一段差不离的代码出来。
写 C++的话，GPT4.1 这种的就跟脑子里有💩一样，经常幻想出不存在的头文件然后编的跟真的一样。
带 reasoning 的就好多了，90%一遍编译过，剩下的 9%把编译器报错信息贴进去能改对，最后的 1%让 AI 自己联网查一下就能解决。