agent有感1:claude code/codex/opencode

最近几天玩了玩三个AI智能体(英文称之为AI Agent)——claude code/codex/opencode,有些体会,作文分享。

推出时间

cc于25年2月推出codex于25年4月推出opencode于25年5月推出,是cc/codex的开源平替。

这仨都在25年下半年越来越火。我们可以在 https://www.star-history.com 查看他们走红的时间。

注:openai 2021年为初版GitHub Copilot训练了一个名为”codex”的模型,在2025年4月又推出了一个名为”codex”的在命令行中运行的软件。两者不是一个东西。

类似物

它们类似于vscode/cursor的agent模式,但能跑更长时间,使用方式更极简。

危险程度排行

众所周知,agent是十分危险的,无论是对个人还是对全人类。轻则删库删文件,重可。。。(自行联想)

如果对现在的AI做一个危险程度排行,我认为,问答式<vscode/cursor的agent模式<cc/codex

问答式AI,最危险的情况无非是散布谣言、忽悠一大批人,这种事古已有之,不怕。

25年春夏,Bengio曾希望用问答式AI(他称之为Scientist AI)来控制Agent AI。这可能是低级智能控制高级智能的唯一方法。

学习

cc/codex是不利于学习的。我可以用它俩帮我复现一篇文章,但我会对这篇文章一无所知。我也可以用它们帮我写出vit或mamba,但我也会对它们一无所知。

学到东西排行:问答式>vs code/cursor 的agent模式>cc/codex

我认为,至少目前,人参与得越多,学到的东西越多,危险程度越小。

科研与工程

如果你发明了一个新算法,或者用ai证明了某个数学难题,本着负责任的态度,你应当一行一行看

但对于工程问题,cc/codex是可用的,因为你可以根据他们给出的定量指标来判断对错。

商业价值

cc/codex当然有很高的商业价值,也带来很多机遇。现在我奶奶都可以用它们都可以写网页、APP、软件。只不过后续维护很困难。

提示词

23年秋gpt-store发布时(第一届openai开发者大会),我曾以为它也能改变世界,结果并没有。我用了快一年,后来用得越来越少,直到彻底不用。

究其原因,它不过是相当于多写了一轮提示词。那我为什么不直接多写一轮提示词呢?

现在anthropic推出的所谓的MCP和skills,无非也是写得很好的提示词罢了。

但是,要注意GPT-Store是和问答式AI绑定的, mcp和skills是和agent AI绑定的,因此或许后者可以超越前者。

工作流

它们对于工作流可能带来颠覆。

比如,我之前用AI做PPT,需要先用问答式AI写提示词,再把提示词教给gamma这样专门生成PPT的AI。现在直接用它们就行了。而且,前者没法迭代,后者可以。

这里的关键是:安全对你的工作到底有多重要?如果改错了对你影响大不大?需不需要你自己去检查它们的修改?

如果你的回答是:非常重要、非常大、需要,那么它们对你的帮助可能不大。

多智能体协作

opencode丝毫不虚cc/codex。开源好处之一是有很多人无偿支持。这不,有一个很好用的插件叫oh-my-opencode,发明者搞了7个智能体协同工作。这东西很不错,很可能改变世界。

多智能体协作这事古已有之。24年的alpha geometry, 22年年初的instruct gpt, 甚至14年的GAN,称得上是广义的多智能体协作。但在AI Agent时代它可能会大放异彩。

编程与数学

聪明的你已经发现了,上述内容都是AI在编程上的进步。其实从2022年11月ChatGPT发布的那天,大家就应该想到会有今天的结局。当年的ChatGPT就可以5分钟用5种方法实现svm,那今天的这些又有什么可让人惊讶的呢?

接下来也写一写数学吧。编程和数学是两个标签非常明确的任务,很适合测试AI,我很喜欢。

据我所知,目前有5个自然语言模型可以达到IMO Gold的水平,Openai和Google在25年夏天各有一个, DeepSeek在25年秋冬发了两个 (https://arxiv.org/html/2511.22570v1https://arxiv.org/abs/2512.02556 ),Google则在今年2月又发一个(https://arxiv.org/abs/2602.10177 )。但是OpenAI和Google完全不提他们是怎么做到的,而DeepSeek的文章写得很详尽。我相信公道自在人心。

多智能体协作应可以帮助人类达到IMO第一的水平,现在只有一步之遥。gpt-o1发布的那天就注定如此了,因为它五分钟就能解决五道本科水平的数学题。

下一步则是超越人类,去证明人类不曾证明的重要的数学题。注意是重要难题,而不是边角料和小鱼小虾这点未必能做到。毕竟IMO只是高中水平的数学比赛。

物理

大语言模型,在编程、数学、语文上都展现出了极强的能力。但是他的物理水平也就那么回事儿。他可以拿到IMO金牌,但是却并不能给你讲清楚,地球如果不自转绕着太阳是平动还是转动;也不能说明白,为什么伽利略用脉搏测单摆周期而桑托里奥用单摆周期测脉搏,物理学家却认为他俩都是对的。

许多学者渴望的 世界模型/具身智能 是一个真正理解物理的AI。这点也未必能做到。

为什么大语言模型在数学会比物理先成功呢?

我想到两个原因,第一,数学更适合用语言来描述,相比物理,故而训练数据上前者远比后者多。第二,数学是极端严谨的,物理则是介于严谨和不严谨之间的,这就是说,对于前者,大语言模型可以得到一个明确的label,从而有明确的反馈。

有一个很有名的物理学家曾经对学生说,不要问我质量是怎么定义的,电荷是怎么定义的,在物理学里我们没法精确的定义任何东西,当我说一件事情,你大约知道我在说什么,当你说一件事情,我也大约知道你在说什么,这就足够了。

也许多智能体协作也能对理解物理有些帮助吧。

付费

订阅上,我为OpenAI, Github Copilot, Sider付费较多。

API上,我为DeepSeek, Kimi付费较多。

这些钱我觉得都很值。