深度学习掀起的科学革命 | Science Revolution Caused by DL

如果终将失事,你是否还会扬帆远航?


有一位科学家叫 Jim Gray(1944-2007)。1998年因“对数据库和事务处理研究的开创性贡献以及系统实现中的技术领导地位”获得图灵奖(我至今也不理解他的工作,毕竟我非CS出身)。

他很喜欢一个人出去航海。2007年,他打算前往一个小岛,把母亲的骨灰撒在岛上。

但是,他再也没有回来。

他的朋友、学生中有不少都是计算机视觉的高手。他们在几千张影像中希望找到Gray的身影,但是一无所获。


Jim Gray 极富洞察。2007年(注意此处),他提出,在大数据时代,我们正在经历第四次科学革命。(那时候是深度学习第二次寒冬,他指的不是深度学习,仅仅是大数据。)他认为:

  1. 第一范式:人类无脑地做实验,比如学会用火,比如建造埃及金字塔,比如发明造纸术。
  2. 第二范式:始于伽利略。先提出一个理论,再做实验看实验和理论是否符合。如果不符合,修改理论。
  3. 第三范式:始于电子计算机。计算机模拟现实中难做的实验。
  4. 第四范式:始于大数据。Jim 认为,辅以大数据,计算机能理解复杂系统。
Slides from Pengcheng Zhou
Figure 1 of the Fourth Paradigm

2014年,一家AI公司,第四范式,在中国成立。和大家猜的一样,创始人说,名字是为了致敬Jim Gray


我的想法和 Jim Gray 不太一样:

  1. 伽利略之前的无脑实验:当然对人类进步很重要,当然是工程,但是似乎不能称之为自然科学。
  2. 计算机模拟(这正是我们这门课,计算物理):我认为和实验没有本质区别,只是把现实中难做的实验拿到计算机上了。依旧是“先提出一个理论,再做实验看实验和理论是否符合”。至于用计算指导实验,我认为,类似于预实验。

我觉得,人类历史上有三次科学革命:

  1. 欧几里得等人撰写《几何原本》
  2. 伽利略撰写《两种新科学》
  3. Deep Learning (AlphaFold, ChatGPT)

第一点标志着数学的真正开端。我们把一些规则当成公理,再用它们构建我们的体系,而不是只是算术和画图。这就是数学。

第二点标志着自然科学的真正开端。先提出一个理论,再做实验看实验和理论是否符合,而不是单纯思辨或者无脑实验。这就是自然科学。后来,拉瓦锡、孟德尔也用类似的思考方式。

第三点,来自于很多人心底的疑惑——上帝的语言真的是数学吗?自然界的规律真的都可以用简单的数学语言或自然语言描述吗?也许答案是否定的。到目前为止,人类能理解的规律要么能用几句数学语言描述、要么能用几句自然语言描述。但复杂系统也许不能。而未来,深度学习可以充当人类和自然界(特别是复杂系统)的“翻译软件”。


More Is Different,刚刚提出时是凝聚态物理的”独立宣言”,现在是笼罩整个人类社会的诅咒。

  1. 人类能理解DNA -> RNA -> 蛋白质 (Crick Dogma);但一个蛋白质发生改变后,会对性状造成什么改变?
  2. 人类能理解原子分子之间的相互作用 (Newton);但传统方法在预测蛋白质结构上如此彻底地败给深度学习。
  3. 人类能理解单神经元并准确地给出动作电位 (Hodgkin-Huxley);但神经元一多,人类就束手无策。没有任何一个人知道生物神经网络如何实现学习和记忆,也没有任何一个人知道它为什么需要睡眠。
  4. 人类发明了CNN, RNN, Transformer,知道其中的每一个单元、每一个相互作用;但人类无法理解它们为什么工作得如此之好,也无法预测它们对新事物的响应。

如果终将失事,我仍会扬帆远航。

因为航行本身就是一种追寻,是对未知的探索,是对梦想的执着。

因为扬帆远航的瞬间,生命才真正充盈。

因为那是一种无惧无悔的勇气。

因为那是在过程中寻找意义的慨然。

与其在岸边踟蹰不前,不如以热忱拥抱风雨,哪怕前路注定风高浪急,甚至必将失败,过程却充满了属于自己的光辉。

你呢,会选择出发吗?