如何和LLM协作？

Posted on 2025-12-28 In 2025 , 2025-12 Word count in article: 1.4k Reading time ≈ 5 mins.

不切实际的期待

现在已经是2025年12月了，距离ChatGPT-3.5发布已经过去了36个月，距离ChatGPT-o1发布也已经过去15个月。然而，在和LLM协作这件事上，我却停滞不前，甚至有些退步——我使用LLM时常常感到疲惫和愤怒。

曾经，我会因为 ChatGPT-3.5 写出一篇小作文而欣喜和兴奋，现在我在SIDER或者Cherry Studio里后宫佳丽三千人，却不再因为它们的作文而兴奋。

曾经，我会因为 ChatGPT-3.5 能够五分钟写完五种SVM的实现方法而震撼，会因为只需要在它的代码基础上改一改而开心好几天。现在却已平淡如水，并且会因为LLM没有立刻写出正确的code而生气。

曾经，我会心花怒放地和 ChatGPT-o1 聊数学、物理、统计，以及一切可以用数学语言描述的现象。我惊讶于LLM不仅掌握了编程语言和自然语言，现在甚至掌握了数学语言。但是现在我会因为LLM没有立刻写出正确的推导过程而生气。

曾经，我会因为 ChatGPT-3.5 能够拒绝回答训练日期之后的事情而惊讶，但现在这件事看起来似乎稀松平常。

究其原因，是因为2025年夏天LLM的突破让我对LLM产生了不切实际的期待。

2025年夏天，openai和google各自推出了达到IMO Gold水平的模型。虽然没有对外开放。

2025年夏天，openai推出GPT-5，跑分上超过ChatGPT-o3。

因此，我开始觉得LLM是一个无所不知、无所不能、让我摆烂的智者。

我之前就醒悟过

因此LLM永远不会取代搜索引擎。

这里，我把幻觉定义成——LLM回答错了一个有明确正确答案的题目。例如，Justin Biber的母亲是谁，冒泡排序应该怎么写，调和级数是收敛还是发散的。

为什么LLM永远会有幻觉？——因为它的训练数据里有错的。

为什么搜索引擎没有幻觉？——因为它仅仅是把人类产生的文字从数据库里抽取出来。除非抽取算法错了，否则它不可能更改原本的文字。

搜索引擎是图书馆，搜到的结果是书籍，如果一本书里出现胡言乱语或者事实性错误，你可以说作者写错了，但你不能说图书馆错了。

LLM则是作者。

既然如此，我应该如何更好地和LLM协作呢？

那就是，把LLM当成一个可以随时随地交流的智者，但并不是一个无所不知、无所不能、完全让你摆烂的智者。

它在所有领域都有 PhD 学位。——因此要多和它交流。要主动。

它依然会记错事情，这件事在和它讨论论文时经常发生。——这时你可以换一个智者（LLM）交流。

它经常不承认自己不懂，这件事在和它讨论数学、代码时经常发生。——这时你也可以换一个智者（LLM）交流。

它是仅仅是众多拿着笔写书的智者中的一个。——因此不要它因为写的书好就不看其他智能体写的书。要采集众家之长，扬弃众家之短。

最后，不要忘了：
$$
LLM \subseteq DL \subseteq ML \subseteq AI
$$
以上的文字都只针对LLM。和FNN/CNN/RNN没关系，和SVM/随机森林没关系，和符号主义没关系。

预测一下2026年AI在数学、代码、论文上的进步：

数学：2025年7月，Google和OpenAI都做出了在IMO上拿到金牌的模型。2025年12月，DeepSeek也做到了。2026年我们能用上IMO金牌水平的模型（哪怕scaling law在2025年12月立刻失效，也不影响我们用上）。
代码：和数学进步在o1有突变不同，LLM在代码上的进步是渐变的，从gpt3.5，到gpt4，到claude 3.5，到claude 4.5。2025年推出的CC和Codex在26年会进一步取代Copilot和Cursor（哪怕scaling law在2025年12月立刻失效，也阻挡不了CC和Codex）。
论文：和代码类似，进步也是渐变的。LLM现在看论文已经足够厉害，但是这不意味着它无所不知、无所不能、可以帮你在读书和读论文上摆烂。我不确定2026年的LLM的看论文能力会加强、持平、还是下降。

总之，不管scaling law是否失效，至少在2026年，我还能享受到LLM的升级（IMO金牌模型、CC）。

当然，LLM能拿到IMO金牌，也不意味着它可以帮你在数学上摆烂——你如果不主动请教，还是屁都不会。

也不意味着LLM无所不知、无所不能——IMO只是【高中】【数学】【考试】。