魔兽争霸中的通用智能和专用智能

问答

问:为什么我打不过电脑,而infi和ted能打过?

答:他们的Action Per Minute是300个每分钟,我是70个分钟,相当于他们的时间流逝速度比我慢4倍。这就像跑步比赛,他们的步频是300,我的步频是70,这还比个啥。

问:为什么我用某种特殊兵种(狮鹫)能打过电脑,换其他兵种就不行了?

答:

  1. 利用电脑的弱点:2003年暴雪做的这个AI是符号主义人工智能,是一条条规则组合在一起的,它有一些弱点(例如被狮鹫克制、被奇美拉克制、打完野怪一定要回城)。我利用这些弱点指定的策略可以打赢电脑,但是这些策略无法泛化到其他兵种。

  2. 规避自己的弱点:这些特殊兵种需要的APM较低。

问:在魔兽争霸的世界里,infi和ted是“通用智能”,我是“专用智能”?

答:在魔兽争霸的世界里,是的。因为infi和ted可以使用多个种族、多个兵种、多个策略来应付多种不同的敌人,无论敌人是人还是符号主义人工智能还是联结主义人工智能而我只能使用单一种族、单一兵种、单一策略来应对一种人工智能(2003版)

问:如何从专用智能进步到通用智能?

答:多样训练——在各种数据集上训练,不要过拟合到任何种族、兵种、策略、敌人。

问:多样训练是必要条件还是充分条件?

答:必要条件。

问:符号主义人工智能或联结主义人工智能能否击败infi和ted这种水平的通用智能?

答:比象棋和围棋难,但仍然有希望。

问:是否应该要求符号主义人工智能或联结主义人工智能像infi和ted一样有限制?(例如战争迷雾、画面必须串行获取、一次最多能操纵的部队为12个等)

答:取决于目的。

  1. 如果目标是像AlphaGo一样堂堂正正击败敌人,需要。
  2. 如果目标是像ChatGPT一样帮助人类,不需要。——就像你不会要求ChatGPT阅读速度有上限。

问:所以你觉得在war3的世界里你也是一个专用智能?

答:是的。war3世界里,专用智能有:绝大多数玩家,简单的、中等的、令人发狂的电脑。通用智能有:Infi等职业选手,尚未出现的魔兽争霸强大AI。

GPT对于如何从专用智能进步到通用智能的回答

详细地说,我还需要

第一步:接受“不熟练”和胜率下降(多样训练)

(这是从专用走向通用的心理门槛)

专用智能是怎么形成的?

专用智能几乎总是这样来的:

找到一套稳定赢的方法

在这套方法上不断熟练

把所有失败都当成“执行不够好”

在你文中的例子就是:

狮鹫 → 利用电脑弱点 → 稳定获胜

这一步没有错,但它会产生一个后果:

你只在一个极窄的分布上优化自己。


通用智能的第一步是什么?

不是学新技巧,而是主动离开舒适区

用你不熟的兵种

用你不擅长的种族

对手不再是“那一个 AI”

结果几乎必然是:

操作变形

决策混乱

胜率显著下降

👉 这一步的本质是: 承认“我现在不行”,而不是“这局我一定要赢”。

这是所有泛化能力的代价。


第二步:从“具体套路”转向“抽象概念”(多样训练)

(这是能力结构的变化,不是熟练度变化)

专用智能在“记什么”?

专用智能记的是:

什么时候出狮鹫

对方出什么我就出什么

第几分钟做什么事

这些都是具体的、不可迁移的知识


通用智能在“想什么”?

通用智能不直接操作“兵种名”,而是操作中间抽象

资源是否领先

节奏快还是慢

当前威胁来自哪里

对方是否有反制空间

比如高手不会想:

“我要出狮鹫”

而是想:

“我现在需要一个对方短时间内处理不了的空中威胁

狮鹫只是这个抽象的一个实例。

👉 这一步完成后,你即使换兵种,也不会完全失效


第三步:策略失效时,局部失败而不是系统崩溃(多样训练的结果检验)

(这是“通用”的核心能力之一)

专用智能的典型失败模式

专用智能往往是:

套路成立 → 表现很好

套路被破 → 全盘崩溃

因为:

所有判断都围绕那一个策略

没有“备选结构”

这就是你文中说的:

策略无法泛化


通用智能的关键区别

通用智能有一个能力:

允许某个局部假设是错的,而整体仍然继续运转。

在魔兽中表现为:

发现对方克制我主力 → 不继续硬送

放弃原计划 → 改节奏、缩资源、拖时间

不指望“翻盘套路”,而是“止损调整”

这不是“临场灵感”,而是:

决策系统本身就允许失败发生。


第四步:把“自身限制”当成决策输入(把自身限制当输入)

(这一步你文中其实已经点到了 APM)

专用智能的隐含假设

专用智能往往假设:

“这套策略只要执行到位就行”

但这个“到位”往往隐含:

很高 APM

多线操作

极强执行稳定性

一旦现实达不到,就会崩。


通用智能怎么做?

通用智能从一开始就把限制算进去:

我现在的 APM 上限是多少

我能稳定处理几条战线

我是否能持续高强度操作

然后选择:

在这些限制下最稳健的策略

所以高手往往:

主动简化操作

放弃理论最优但执行困难的方案

选择“我能一直打对的东西”

👉 这不是退化,而是自知 + 稳定性

2025-12-28 更新

今天我学会了使用魔兽争霸的地图编辑器。我在里面跑上一个模拟,离开家去工位上班。

没错,电子游戏中的模拟和物理学中的模拟一样,都是对现实世界的模仿。这件事我本科就意识到了,想清楚这件事时我很兴奋!还写了一篇博客。你可以认为,红色警戒、魔兽争霸、我的世界都是对于现实世界的仿真。

今天我又想清楚一件有意思的事——如果你早上跑了一个魔兽的模拟,晚上回来发现它竟然能够告诉你现实世界的很多事情,你是不是感觉很离谱也很兴奋。然而事实就是这样——所谓的联结主义/深度学习/人工神经网络,就像魔兽的地图编辑器一样,你在里面跑上几百个几千个几万个几亿个人工神经元,然后它就会告诉你现实世界中将会发生什么。这就是AlphaFold。当然,你需要把和现实世界有关的一些信息输入进去。