如何和LLM协作?
不切实际的期待
现在已经是2025年12月了,距离ChatGPT-3.5发布已经过去了36个月,距离ChatGPT-o1发布也已经过去15个月。然而,在和LLM协作这件事上,我却停滞不前,甚至有些退步——我使用LLM时常常感到疲惫和愤怒。
曾经,我会因为 ChatGPT-3.5 写出一篇小作文而欣喜和兴奋,现在我在SIDER或者Cherry Studio里后宫佳丽三千人,却不再因为它们的作文而兴奋。
曾经,我会因为 ChatGPT-3.5 能够五分钟写完五种SVM的实现方法而震撼,会因为只需要在它的代码基础上改一改而开心好几天。现在却已平淡如水,并且会因为LLM没有立刻写出正确的code而生气。
曾经,我会心花怒放地和 ChatGPT-o1 聊数学、物理、统计,以及一切可以用数学语言描述的现象。我惊讶于LLM不仅掌握了编程语言和自然语言,现在甚至掌握了数学语言。但是现在我会因为LLM没有立刻写出正确的推导过程而生气。
曾经,我会因为 ChatGPT-3.5 能够拒绝回答训练日期之后的事情而惊讶,但现在这件事看起来似乎稀松平常。
究其原因,是因为2025年夏天LLM的突破让我对LLM产生了不切实际的期待。
2025年夏天,openai和google各自推出了达到IMO Gold水平的模型。虽然没有对外开放。
2025年夏天,openai推出GPT-5,跑分上超过ChatGPT-o3。
因此,我开始觉得LLM是一个无所不知、无所不能、让我摆烂的智者。
图书馆和作者
我之前就醒悟过
- LLM永远会有幻觉。
- 搜索引擎没有幻觉。
因此LLM永远不会取代搜索引擎。
这里,我把幻觉定义成——LLM回答错了一个有明确正确答案的题目。例如,Justin Biber的母亲是谁,冒泡排序应该怎么写,调和级数是收敛还是发散的。
为什么LLM永远会有幻觉?——因为它的训练数据里有错的。
为什么搜索引擎没有幻觉?——因为它仅仅是把人类产生的文字从数据库里抽取出来。除非抽取算法错了,否则它不可能更改原本的文字。
搜索引擎是图书馆,搜到的结果是书籍,如果一本书里出现胡言乱语或者事实性错误,你可以说作者写错了,但你不能说图书馆错了。
LLM则是作者。
如何和LLM协作?
既然如此,我应该如何更好地和LLM协作呢?
那就是,把LLM当成一个可以随时随地交流的智者,但并不是一个无所不知、无所不能、完全让你摆烂的智者。
它在所有领域都有 PhD 学位。——因此要多和它交流。要主动。
它依然会记错事情,这件事在和它讨论论文时经常发生。——这时你可以换一个智者(LLM)交流。
它经常不承认自己不懂,这件事在和它讨论数学、代码时经常发生。——这时你也可以换一个智者(LLM)交流。
它是仅仅是众多拿着笔写书的智者中的一个。——因此不要它因为写的书好就不看其他智能体写的书。要采集众家之长,扬弃众家之短。
最后,不要忘了:
$$
LLM \subseteq DL \subseteq ML \subseteq AI
$$
以上的文字都只针对LLM。和FNN/CNN/RNN没关系,和SVM/随机森林没关系,和符号主义没关系。
预测2026
进步
预测一下2026年AI在数学、代码、论文上的进步:
- 数学:2025年7月,Google和OpenAI都做出了在IMO上拿到金牌的模型。2025年12月,DeepSeek也做到了。2026年我们能用上IMO金牌水平的模型(哪怕scaling law在2025年12月立刻失效,也不影响我们用上)。
- 代码:和数学进步在o1有突变不同,LLM在代码上的进步是渐变的,从gpt3.5,到gpt4,到claude 3.5,到claude 4.5。2025年推出的CC和Codex在26年会进一步取代Copilot和Cursor(哪怕scaling law在2025年12月立刻失效,也阻挡不了CC和Codex)。
- 论文:和代码类似,进步也是渐变的。LLM现在看论文已经足够厉害,但是这不意味着它无所不知、无所不能、可以帮你在读书和读论文上摆烂。我不确定2026年的LLM的看论文能力会加强、持平、还是下降。
总之,不管scaling law是否失效,至少在2026年,我还能享受到LLM的升级(IMO金牌模型、CC)。
局限
当然,LLM能拿到IMO金牌,也不意味着它可以帮你在数学上摆烂——你如果不主动请教,还是屁都不会。
也不意味着LLM无所不知、无所不能——IMO只是【高中】【数学】【考试】。
- 不是【高中】,它未必会——【大学】【数学】【考试】,LLM未必有多强。
- 不是【数学】,它未必会——【高中】【物理】【考试】和【高中】【化学】【考试】,LLM未必有多强。
- 不是【考试】,它未必会——数学家要做的是发现和探索未知,而不是考试,LLM在【发现】和【探索】上未必有多强。