GPT-5在数学和幻觉上的表现

Posted on 2025-08-08 In 2025 , 2025-07 Word count in article: 835 Reading time ≈ 3 mins.

北京时间2025年8月8日凌晨1点，加州时间2025年8月7日上午10点，GPT-5终于发布了。

我关注了两点——数学和幻觉。

数学

GPT-5

之前的流言说：非推理版的 GPT-5 在AIME 2025（美国IMO国家队选拔赛试题）上拿下100分。但这是假的。

事实上，在不使用工具的情况下，非推理版拿到了61.9分，推理版拿下了94.6分。

图片来自GPT-5博客

前代模型

前代模型中，在AIME 2024上，在不使用工具的情况下，GPT-4o不足20分，o1-preview 60分，o1 80分，o3 90分。

图片来自GPT-o1博客

图片来自 GPT-o3博客

思索

为什么非推理模型能进步到60分呢？我猜采用了类似蒸馏的方法，用推理模型给出的概率分布教学非推理模型。
Kimi-k2和DeepSeek-V3的AIME表现如何？——不到60分

图片来自 Kimi-k2博客

幻觉

GPT-5

GPT-5的幻觉低于o3，很好。

图片来自GPT-5博客

前代模型

从ChatGPT 3.5到ChatGPT o1，幻觉率（大体上）是在下降的。

但是，o3的幻觉率大于o1，o4-mini的幻觉率大于o3！

图片来自 GPT-o3 System Card

原因众说纷纭——一个合理点的说法是，因为OpenAI为了节约成本抛弃了Reasoning Token。但是这也无法解释为啥o3的幻觉率大于o1。

思索

GPT-o3 System Card 的两个数据集均来自OpenAI。为什么他们不在前两个数据集上也测一下呢？
o3的幻觉率大于o1，o4-mini的幻觉率大于o3，我觉得这是一个值得研究的科学问题。但是现在看来OpenAI不想研究。
我认为LLM是取代不了搜索引擎的。
1. Ronald Fisher 写文章说现有证据只能说明吸烟和肺癌有相关性，不能说明有因果性。Albert Einstein认可计划经济，Von Neumann反对计划经济。他们仨都是人类历史上最聪明的人之一。Fisher是统计学之父，这就是他的专业；Von Neumann在经济学上很有建树，这也算是他的专业。
2. 在没有互联网的时代，你听到了他们仨的观点，应该去问问其他人的看法，或者去翻翻书（书是前辈们的看法）。做一个交叉验证。
3. 在有互联网的时代，搜索引擎可以帮你更快速地询问其他人、前辈们的看法。
4. 所以，就算LLM达到了Fisher, Einstein, Neumann的水平，也不能取代搜索引擎。
5. 参考：

0%