2019 年DeepMind 再次引起轰动这次他们的AI 程序AlphaStar 在即时战略游戏《星际争霸 》中表现出色超越了 99.8% 的人类玩家跻身顶级玩家行列。在实际对战中AlphaStar 展现了高度的战略意识和灵活的应变能力。与围棋中的固定规则不同《星际争霸》是一个开放的竞技环境玩家需要根据对手的行为和游戏局势动态调整战术。在与职业选手TLO 和MaNa 的比赛中AlphaStar 以 10 比 1 的压倒性战绩获胜充分展示了 AI 在复杂实时环境中的组织和决策能力。AlphaStar 的成功归功于强化学习与自我对战的结合。与 AlphaGo 类似AlphaStar 首先通过学习人类玩家的对战数据掌握了基本的行为策略然后通过大量自我对战进行策略强化。据统计AlphaStar 的训练量相当于人类玩家不间断训练了 200 年。这种高强度的自我学习过程使得AlphaStar 逐步掌握了高超的操作技巧和强大的战略思维。AlphaStar 对战人类玩家的游戏画面。图片来源DeepMind blogAlphaStar 的成功表明AI 不仅能够学习个体策略还可以在复杂环境中协调大规模的群体行为。这一突破预示着类似的技术可以应用于训练作战指挥系统甚至推演整个社会的发展进程。