9.11vs9.9

近几个月,不知哪个大聪明发现,直接问LLM:”Which is bigger, 9.11 or 9.9.”,LLM有很大的概率会回答错。包括o1-preview。

我之前试过,如果言明是实数或者是版本号,LLM几乎100%会回答正确。我是拿讯飞星火试的,都没用GPT。因此我觉得,很多人只是想靠这件事水文章。

我个人认为,人类和LLM是两种智能,就像人类视觉和CNN是两种视觉一样。两种视觉互有长短,两种智能也是。人看到9.11和9.9会先想到实数,LLM看到(可能)会先想到版本号,两种智能有不同的先验和直觉,仅此而已。

伽利略之前,没有任何一个人意识到物体的运动是不需要力来维持的,所有人都认为不推一个物体它就不会动,因为这就是人类的先验和直觉。这件事在现在看来就跟说9.11比9.9大一样愚蠢。但这能说明伽利略之前的人都很蠢吗?

不同人的先验和直觉不一样(因此,未来不同LLM的先验和直觉也有可能不一样)。比如那个著名的三门问题(Monty Hall Problem),保罗·埃尔德什竟然会做错,但此问题的答案是很符合我的直觉的。