重读《视觉》

今天重读Marr的Vision,居然能看懂不少了。

上一次看还是2022年9月,那时候虽有DALLE 2,但无ChatGPT。我和匡一起看这书,匡瞬间意识到过零点这个词很有意思。他的直觉很强。


张正友:2020-2022,视觉、语音、NLP中,数据红利慢慢消失,新的突破往往来自于在神经网络设计中加入对领域的深入理解,这离不开计算理论的指导》

站在2024年看,OpenAI相信Scaling Law,而不相信计算理论,才做出了ChatGPT,他们已经成功了。另外,我觉得RLHF,Chain Of Thought都不能算是计算理论,只是训练时候的奇技淫巧,相信Marr会同意这种看法。

李飞飞:Marr追求计算理论,有些理想化。我的计算目标就是物体识别。

确实

吴家俊:

  1. 深度学习前,大家都喜欢SIFT这样的算子,而不是语义。语义是虚无缥缈。
  2. 底层视觉、三维重建是人类视觉中不可或缺的部分
  3. Marr的方法不涉及机器学习,而是类似牛顿定律,所以他没有强调数据。

第二点,我认为,不一定。底层视觉确实不可或缺,但神经科学家并不知道视觉是否涉及三维重建。

第三点,我认为,人类的视觉也接受了大量数据的输入——从出生开始就一直在看。

Marr:如何检测边缘?边缘无非是原函数像Heaviside,一阶导像Dirac,二阶导像过零点

的确如此,见下图

Tomaso Poggio:

  1. 智能是一个很难以定义的词。
  2. 对于用CNN拟合猴脑视觉皮层的工作,我也认为是用一个黑盒子拟合另一个黑盒子。我们要解释:ReLU在哪里?权重在哪里?
  3. 对于很多AI科学家来说,研究人脑是在押注这是开发AI的最佳方式。
  4. 然而,最近,Demis Hassabis对我说,工程师在没有神经科学家的帮助下,赢得比赛的可能性从10%上升到了50%。
  5. 假设神经科学不会帮助AI,我依然认为投资神经科学是一个好主意——了解我们的脑,至少和了解宇宙、恒星、行星、黑洞一样令人着迷。
  6. 我认为可能存在很多种智能。

1-6我全都同意。

补充一些:对第三点,2022年12月之后没多少人信了,2024年10月之后更没人信了;对第四点,和NLP公司对语言学家的态度很像;对第五点,神经科学研究的问题,作为科学问题,在任何时候都是有意义的,我只是觉得帮助人类和开发AGI更有意义些。

Marr: 理论和计算神经科学的模型,除非它与脑中的解剖学和生理学密切相关,并且可以做出一些出人意料且可以验证的预测,否则它就没有意义。

我同意。这和Crick的看法是一致的。


最后,我相信,Marr看到DALLE 2应该不会太激动,但是看到多模态LLM一定会激动。他会为LLM理解了气球会往上飞而激动,也会为Sora生成的视频中的海浪符合物理而激动。

我们尚不知o1在多模态中的表现。