【小哈划重点:1959年,亚瑟·塞缪尔首先发明了机器学习的形式,这种形式现在被称为强化学习。它使用的是一个程序,该程序通过自己玩跳棋来学习......“电子游戏具有一些特殊的优点,包括真实模拟、确定边界、上帝标准、无损探索以及有趣益智,因此,它就成为了一个非常好的训练场域。”】
打电子游戏和做人工智能(AI)研究的有可能是同一拨人吗?答案是肯定的。AI+游戏长久以来都在试图解决人工智能领域非常基础的科学问题。
游戏与AI
游戏与AI的合作可以追溯到很久以前。早在AI被视为一个研究领域之前,计算机科学的先驱们就编写了游戏程序,因为他们想测试计算机是否能够未完成“智能”任务。
计算机科学之父艾伦·图灵在1950年提出了图灵测试。让一个人向一台隔离的机器和另外一个人提问,如果提问的人没办法分清楚回答问题的是机器还是人,就认为这台机器通过了图灵测试。这也可以被看成为一个游戏。在1952年,图灵设计了一款国际象棋的程序,这是第一次运用程序化方法来解决游戏的问题。
1959年,亚瑟·塞缪尔首先发明了机器学习的形式,这种形式现在被称为强化学习。它使用的是一个程序,该程序通过自己玩跳棋来学习。
早期的电子游戏基本用于学术研究,在进行游戏AI研究时,像国际象棋、国际跳棋和围棋这样的传统棋盘游戏是非常有用的,因为它们的代码建模非常简单,而且仿真速度非常快。围棋中最早的AI特征提取研究可以追溯到上世纪70年代。直到AlphaGo通过深度学习和蒙特卡洛树搜索技术的结合,战胜了围棋高手李世石,以及世界第一的柯洁,该AI计算方法才在多个世界计算机围棋锦标赛中受到广泛关注。
从事游戏博弈相关研究的、中国科学院自动化研究所研究员兴军亮解释,围棋的决策复杂度大概是10360,而它跟现实世界决策问题的复杂度还相差甚远,后者在开放环境下,复杂度远远超过1010000。这就需要一些新环境去测试,比如电子游戏。
谷歌公司旗下的人工智能实验室DeepMind就曾构建了一个名为Agent57的智能体。该智能体在街机学习环境(ALE)数据集所有57个雅达利游戏中实现了超越人类的表现。而后,《星际争霸》也成为其主要的新测试平台之一。社交平台Facebook还发表了有关使用机器学习来角逐《星际争霸》的论文。兴军亮表示,这类电子游戏的复杂度大约在101000到1010000之间。
游戏为AI研究提供理想领域
电子游戏为什么会成为AI研究最重要的训练场?
具体来看,游戏AI的研究涉及三个方面:首先是对外界环境产生感知的研究;其次,游戏中对话智能的研究;第三,研究游戏中人、智能体和环境的交互。
兴军亮表示,在特定的环境中,对多智能体之间的博弈展开研究,属于强化学习。而强化学习是用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。
要让智能体练就这些能力,需要场景和数据够复杂、具备不确定性,才能更好地贴近真实世界中人类决策时面对的环境。
“电子游戏具有一些特殊的优点,包括真实模拟、确定边界、上帝标准、无损探索以及有趣益智,因此,它就成为了一个非常好的训练场域。”兴军亮说。
以《王者荣耀》为例,它需要多智能体相互配合,这就对合作与竞争、完成特定任务背后的强化学习算法设计和训练方式探索提出了高难度的要求。
兴军亮举例,研究团队让AI通过自我博弈进行学习,结果发现了一些非常有意思的现象。比如,有三个英雄为了攻击对方武装的一个防御塔,会选择轮番上阵的策略,这样可以保证自己的血量不会一次被打完,而三人轮流承受攻击,会打出更好的效果。
由于这种策略很容易被学会,AI还会反过来提前防备对方应用这一策略,攻击时专打对方血量最少的几个人,很快将它们消灭掉,以防它们继续对自己造成伤害。在这一过程中,AI学到了相互克制的策略。
兴军亮告诉《中国科学报》,在多智能体的游戏中,对AI而言最高的天花板是“足球比赛”。足球运动是11个球员跟11个球员比拼,不仅涉及更为精细的动作操作,而且配合、战术、战法的复杂度也增加了很多个数量级。
游戏AI的应用场景
AI在游戏中的训练成果,拥有哪些应用场景?
兴军亮介绍,游戏AI的研发最直接的应用还是游戏本身。从游戏设计到内容生成,再到游戏测试、运营,都可以应用。比如,游戏开发人员需要创建能够吸引不同受众的游戏,受益于连续数据的收集,再加上由AI支持的数据分析,游戏可以生成半自动改编的功能,使得游戏本身可以追踪玩家的情绪变化并相应地调整游戏设置。
也就是说,一方面,AI需要匹配适合玩家水平的游戏体验;另一方面,AI需要保持高度的个性化,从而在游戏的整个过程中合理调整难度,比如激励、奖励、目标、剧情等,使得任何水平的玩家都一直有玩下去的动力和乐趣。
而这也意味着,玩家更难以避免沉迷于游戏。比如最早应用于超级马里奥游戏的AI技术,它能生成对抗网络(GAN)自动“设计”海量的超级马里奥关卡。并且,这个超级马里奥关卡策划AI还能充分保证新关卡的可玩性,也就是让每个关卡在开始的时候都相对简单,而后逐渐增加难度,从而保证玩家沉迷于游戏,无法自拔。
兴军亮表示,除了游戏产业,个人电子助理、推荐系统、无人驾驶、芯片设计、决策支持等所有涉及到需要作出持续决策的领域,也都是游戏AI技术的应用场景。
人们常用的社交媒体平台,例如抖音、今日头条等,其推荐算法正在大量使用强化学习算法的成果。过去推荐算法利用的是大量历史数据,如今,用户收到推荐后,进行正向或者负向的奖励,反馈给系统,比如点击就是正向奖励。另外,用户的活跃程度、打开应用的间隔都是有价值的反馈信号,基于此,系统推荐内容可以不断满足用户实时的兴趣偏好,进而出现诸如刷短视频刷到停不下来的现象。
事实上,正是出于对此类社会现象的关切,2021年8月27日,国家互联网信息办公室发布了《互联网信息服务算法推荐管理规定(征求意见稿)》,向社会公开征求意见。其中就提到:算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型。算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。
对此,兴军亮也表示,AI技术如何合理应用,确实应该进行必要的技术伦理讨论,并制定相应的监管政策。
《中国科学报》 (2021-10-21 第3版 信息技术)
(文章“软性商业植入信息”哈希力量收录有删节)