GPT-5在数学和幻觉上的表现

北京时间2025年8月8日凌晨1点,加州时间2025年8月7日上午10点,GPT-5终于发布了。

我关注了两点——数学和幻觉。

数学

GPT-5

之前的流言说:非推理版的 GPT-5 在AIME 2025(美国IMO国家队选拔赛试题)上拿下100分。但这是假的。

事实上,在不使用工具的情况下,非推理版拿到了61.9分,推理版拿下了94.6分。

图片来自GPT-5博客

前代模型

前代模型中,在AIME 2024上,在不使用工具的情况下,GPT-4o不足20分,o1-preview 60分,o1 80分,o3 90分。

图片来自GPT-o1博客
图片来自 GPT-o3博客

思索

  1. 为什么非推理模型能进步到60分呢?我猜采用了类似蒸馏的方法,用推理模型给出的概率分布教学非推理模型。
  2. Kimi-k2和DeepSeek-V3的AIME表现如何?——不到60分
图片来自 Kimi-k2博客

幻觉

GPT-5

GPT-5的幻觉低于o3,很好。

图片来自GPT-5博客

前代模型

从ChatGPT 3.5到ChatGPT o1,幻觉率(大体上)是在下降的

但是,o3的幻觉率大于o1,o4-mini的幻觉率大于o3!

图片来自 GPT-o3 System Card

原因众说纷纭——一个合理点的说法是,因为OpenAI为了节约成本抛弃了Reasoning Token。但是这也无法解释为啥o3的幻觉率大于o1。

思索

  1. GPT-o3 System Card 的两个数据集均来自OpenAI。为什么他们不在前两个数据集上也测一下呢?
  2. o3的幻觉率大于o1,o4-mini的幻觉率大于o3,我觉得这是一个值得研究的科学问题。但是现在看来OpenAI不想研究。
  3. 我认为LLM是取代不了搜索引擎的。
    1. Ronald Fisher 写文章说现有证据只能说明吸烟和肺癌有相关性,不能说明有因果性。Albert Einstein认可计划经济,Von Neumann反对计划经济。他们仨都是人类历史上最聪明的人之一。Fisher是统计学之父,这就是他的专业;Von Neumann在经济学上很有建树,这也算是他的专业。
    2. 在没有互联网的时代,你听到了他们仨的观点,应该去问问其他人的看法,或者去翻翻书(书是前辈们的看法)。做一个交叉验证。
    3. 在有互联网的时代,搜索引擎可以帮你更快速地询问其他人、前辈们的看法。
    4. 所以,就算LLM达到了Fisher, Einstein, Neumann的水平,也不能取代搜索引擎。
    5. 参考:
      1. 总结 Fisher 对吸烟和肺癌观点的论文——When genius errs: R.A. Fisher and the lung cancer controversy
      2. 爱因斯坦对计划经济的看法——Why Socialism
      3. Von Neumann的经济学著作——Theory of Games and Economic Behavior