具身智能迎来ImageNet时刻

Posted on 2023-10-04 In 2023 , 2023-10 Word count in article: 994 Reading time ≈ 3 mins.

骤变

2 个多月前，谷歌 DeepMind 推出了第一个控制机器人的视觉 - 语言 - 动作（VLA）模型 ——RT-2。这个模型让机器人不仅能解读人类的复杂指令，还能看懂眼前的物体（即使这个物体之前从未见过），并按照指令采取动作。比如，你让机器人拿起桌上「已灭绝的动物」。它会抓起眼前的恐龙玩偶。

…

时间仅仅过去了两个多月，DeepMind 的这个机器人模型又进步了，而且一下就提高了两倍。

…

这就是 DeepMind 在过去一段时间所做的事情。他们汇集了来自 22 种不同机器人类型的数据，以创建 Open X-Embodiment 数据集，然后在之前的模型（RT-1 和 RT-2）的基础上，训练出了能力更强的 RT-X（分别为 RT-1-X 和 RT-2-X）。

“具身智能”是机器人的花俏说法，你把两者视为同义词就可以了。

ChatGPT横空出世之后，具身智能的研究吸引来了更多的目光。想想你家的扫地机器人接入了GPT-4，从而可以和你聊天。这件事一点都不难（ChatGPT最近已经出了语音版）。

但是我却感到深深的恐惧。

抉择

我想起2022年1月我玩的游戏——Detroit: Become Human。

游戏背景是2038年，机器人已经非常成熟，心智人均GPT-4，且科学家们发明了和人类皮肤非常像的人造皮肤。然而，那个时代有种种乱象。我只举两个让我认为撼动了人类社会根基的——机器人伴侣和机器人孩子。前者有些少儿不宜，我这里就不提了，后者可以说一说。

机器人孩子和普通小孩外表几乎一摸一样，语言也几乎一模一样，但是它们永远不会打闹，永远听你的话，只在你需要它们哭泣的时候哭泣。它们还不需要上大学，为父母节省一大笔费用（游戏背景是美国）。

以上是游戏中一本杂志上的话，不是主线剧情，但是让我过目难忘。

因为我觉得人类的尊严一点都没有了。

伴侣之间的感情和父母子女之间的感情是人类社会中最真诚、最真实的两种感情，但是现在却被轻易摧毁，充满了虚伪和欺骗。真诚、真实的隐含意思就是，伴侣不会总听你的话，子女也不会总听你的话，你们会有矛盾，而不是永远一帆风顺。

悲哀的是，我发觉，我所在的这代人，我身边的人，应该会有很多人乐意去买一个机器人伴侣或者机器人孩子。

游戏背景是2038年，那时候，我们这代人四十左右，将会是人一生中最渴望孩子的时候了。LLM和具身智能的发展，让机器人孩子不再遥不可及，甚至造价也不高昂。这一天终将会到来。

真到了那一天，我们每个人都要做出自己的选择。

收税

当然，人类也不是束手无策。

在资本主义社会，直接禁止制造是一个很蠢的解决方法，这样的话，机器人孩子这一庞大市场将全部转入地下，在黑市上流通。（资本主义、市场经济的基本逻辑是——有需求就有市场）

如果我是领导人，我会对机器人孩子收重税，让绝大多数人都买不起。

这也是资本主义国家对烟草、酒精、糖等物品收重税的原因。人类社会已经摆脱不了它们，但又不能让全社会沉迷于此。