国际象棋和围棋曾是孩子的游戏。现在AI正在赢得夺旗游戏。这些技能最终会转化到现实世界吗?
孩子们会在夏季营地开放空间玩夺旗这个游戏;同时,争夺旗子这个游戏画面也是Quake III和Overwatch等热门游戏的一部分。
无论是哪种情况,这都是一项团队运动。每一方都守卫一面旗帜,同时还要计划如何抓住对方的旗帜并将其带回到自己的大本营。赢得比赛需要良好的老式团队合作以及协调防守和攻击之间的平衡。
换句话说,夺得旗帜需要一套看起来似乎只有人工才能操作的技能。但伦敦一家人工智能实验室的研究人员表明,机器也可以攻克这项游戏,至少在虚拟世界中是可以的。
在五月三十日发表在《科学》杂志上的一篇论文中,研究人员称他们在Quake III游戏的夺旗环节中设计了自动“代理人”,这些“代理人”表现的就跟人类在操作一样。这些代理人能够自行组队来对抗人类玩家,也可以与他们并肩作战,根据情况相应地调整自己的行为。
隶属于Alphabet的DeepMind实验室的研究员Wojciech Czarnecki表示:“这些代理人可以适应具有任意技能的队友。”
通过数千小时的游戏,代理人学会了非常特殊的技能,比如在队友即将获得旗帜的情况下极速跑去攻击对手的大本营。正如人类玩家所知,当对方旗帜被夺得并带到自己的大本营时,对家的大本营中会出现一面可以抢夺的新旗。
DeepMind的项目是努力构建人工智能应用于复杂三维动画游戏的一部分,这些三维动画游戏包括Quake III、Dota 2和星际争霸II。许多研究人员认为:虚拟领域的成功最终将提升现实世界中人工智能的应用能力。
例如,这些技能可以使仓库机器人受益——当他们分组工作将货物从一个地方移动到另一个地方时,或者帮助自动驾驶汽车在交通拥堵时集中导航。位于旧金山的OpenAI实验室有着类似研究项目,项目负责人Greg Brockman说道:“游戏一直是AI的基准。如果不能攻克游戏难题,就不能指望AI解决其他问题。”
直到最近,在像Quake III这样的游戏中构建一个可以匹配人类玩家的系统才成为可能,以前看来似乎是不可能的。但是在过去的几年里,DeepMind、OpenAI以及其他实验室取得了重大进展,这要归功于一种称为“强化学习”的数学技术,这种技术使得机器能通过极端的反复试验和试错来学习。
通过一遍又一遍地玩游戏,这些自动代理人可以了解哪些策略能成功,哪些策略不成功。如果代理人在队友即将夺旗的情况下通过向对手的大本营移动而不断赢得更多积分,则会将这种策略添加到他的游戏策略中。
在2016年,同样使用这项基础技术,DeepMind研究人员构建了使得AlphaGo在东方围棋游戏中击败世界顶级玩家的系统。鉴于围棋游戏的巨大复杂性,许多专家曾认为这种突破不会这么早实现,而是起码将在未来十年内完成。
尤其是当涉及到队友之间的协调时,第一人称视频游戏的复杂程度是呈指数级的增长的。DeepMind的代理人通过大约45万轮游戏来学习如何夺得旗帜,在数周的训练中便积累了需要大约4年的游戏经验。起初,代理人惨遭失败。但通过学习突袭对手大本营时应该如何追随队友,他们逐渐了解到了这个游戏的精髓。
在完成这个项目以后,DeepMind的研究人员还设计了一个可以击败星际争霸II专业玩家的系统。在OpenAI实验室,研究人员构建了一个掌握Dota 2的系统,Dota 2这个游戏就像夺得旗帜的加强版本。今年四月,由五名代理人组成的团队击败了由五名世界上最优秀的人类玩家组成的玩家团队。
去年,人称Blitz的专业Dota 2玩家兼评论员William Lee与代理人进行过一对一比赛,当时的版本不允许团队战;在当时,William对此表示兴趣平平。但是当代理人继续学习比赛并且参加团队战时,他对代理人的技巧感到震惊。