深度学习掀起的科学革命

这篇文章是我当计算物理助教时(2024秋季学期)写给同学们的,现在略作修改,重新发表。

如果终将失事,你是否还会扬帆远航?

有一位学者叫 Jim Gray(1944-2007)。1998年因“对数据库和事务处理研究的开创性贡献以及系统实现中的技术领导地位”获得图灵奖。他很喜欢一个人出去航海。2007年,他打算前往一个小岛,把母亲的骨灰撒在岛上。但是,他再也没有回来。他的朋友、学生中有不少都是计算机视觉的高手,他们在几千张影像中希望找到 Jim Gray 的身影,但是一无所获。

Jim Gray 极富洞察。2007年,他提出——我们正在经历第四次科学革命。

他认为:

  1. 第一范式:人类进行海量的实验,从而学会用火、建造埃及金字塔、发明造纸术。
  2. 第二范式:始于伽利略。先提出一个理论,再做实验看实验能否验证理论给出的预测。
  3. 第三范式:始于电子计算机。用计算机模拟现实中难做的实验。
  4. 第四范式:始于大数据。Jim Gray 认为,辅以大数据,计算机能理解复杂系统。(那时候是深度学习第二次寒冬,他指的不是深度学习,仅仅是大数据)

2014年,一家名为第四范式的AI公司在中国成立。和大家猜的一样,创始人说——名字是为了致敬 Jim Gray。

我的想法和 Jim Gray 不太一样。我不认可他所说的第一范式和第三范式:

  1. 伽利略之前的海量实验:当然对人类进步很重要,当然是巨大的工程进步,但是似乎不能称之为自然科学。
  2. 计算机模拟:我认为和实验没有本质区别,只是把现实中难做的实验拿到计算机上了。依旧是“先提出一个理论,再做实验看实验和理论是否符合”。至于用计算指导实验,我认为,类似于预实验。

我同意他所说的第二范式和第四范式。除此之外,我认为他遗漏了古希腊数学。

我认为,人类历史上有三次科学革命:

  1. 欧几里得等人撰写《几何原本》。这标志着数学的真正开端。我们把一些规则当成公理,再用它们构建我们的体系,而不仅仅是算术和画图。这就是数学。

  2. 伽利略撰写《两种新科学》。这标志着自然科学的真正开端。我们要判断实验结果和理论预测是否一致,而不是单纯思辨或无脑进行海量实验。这就是自然科学。后来,拉瓦锡、孟德尔也用类似的思考方式。

  3. 2012年至今深度学习的进展。这意味着一种人类和自然界之间“翻译软件”。上帝的语言真的是数学吗?自然界的规律真的都可以用简单的数学语言描述吗?——也许答案是否定的。到目前为止,人类能理解的规律要么能用几句数学语言描述、要么能用几句自然语言描述。但复杂系统也许不能。当系统足够复杂时,我们也许永远无法用人类可理解的语言来概括其规律,但我们已经可以训练一个神经网络来充当“翻译软件”。没错,深度学习已开始充当人类和自然界(特别是复杂系统)的“翻译软件”,并且这个翻译软件的能力越来越强。例如:

    甲)人类能理解两个原子之间的相互作用 (用牛顿方程或薛定谔方程模拟)。但基于物理定律的方法在预测蛋白质结构上完败于深度学习 (2020, AlphaFold 2)。

    乙)人类能理解单神经元并预测动作电位波形 (Hodgkin-Huxley),也能预测初级视觉皮层神经元对于视觉刺激的响应 (Hubel-Wiesel)。但基于传统规律的方法在预测高级视觉皮层神经元响应上完败于深度学习 (2019, DiCarlo Lab)。

    丙)利用RNN或Transformer及其变体,三个不同的实验室已经可以从中风或ALS患者运动皮层信号中实时解码出患者想说的话 (2023, Chang Lab; 2023, Shenoy Lab; 2024, Stavisky Lab)。RNN和Transformer就像翻译机,把患者的脑信号翻译成了英文。整个过程唯一用到的神经科学知识是和口唇舌咽运动有关的皮层在哪里,完全没有用到哪怕一丁点理论神经科学。

三次革命后,学者们不会抛弃过往的传统,而是继承:

  1. 伽利略之后的学者们在创立自己的学说时均借鉴了古希腊数学家的公理化思想。
  2. 从今往后,学者们也依然要判断实验结果和理论给出的预测是否一致。只不过,预测不再由简单的几句数学或自然语言给出,而是由人工神经网络给出。

Jim Gray 扬帆远去,没有归来。我们这一代人也正在驶向一片未知的海域,船上载着一个连我们自己也无法理解的翻译机器。