从模拟到创新：人工智能从游戏中学到了什么？-米儿火

王枢腾讯研究院博士后

孟靖之腾讯研究院实习生

7月13日《Science》杂志刊发名为《游戏持续驱动着人工智能发展进步》文章，详细论述了游戏与人工智能的发展关系，认为“游戏为通用智能工作提供了前景广阔的应用领域，将游戏作为研究人工智能的平台，给价值2000亿美元全球电子游戏产业带来了直接的助益。”[1]

那么，游戏与人工智能之间到底有着怎样的关系，游戏究竟是如何推动人工智能的发展与进步，而这些又会对人们的生活带来哪些影响？

协同共生：

游戏与人工智能的相辅相成

回顾整个信息科学或计算机科学的发展历史，不难发现游戏几乎贯穿着整个人工智能研究的发展过程，人工智能领域中每一次里程碑式的突破都与游戏密切相关。此前，厦门大学游戏哲学研究中心等从理论、硬件、应用三个层面论述了游戏与人工智能发展之间的关系[2]：

游戏启发人工智能理论，助力人工智能研究发展。从1950年信息之父香农以国际象棋为对象开始研究人工智能，到人工智能先驱塞缪尔基于国际跳棋发明强化学习算法。国际象棋、跳棋等棋类游戏一直被认为是“AI研究的果蝇”，即低成本、可感知地快速验证问题的媒介。如今，游戏产业的快速发展直接促进了人工智能理论研究的繁荣。1971年到2015年间，与游戏相关的人工智能研究论文数量不足1000篇，但从2015年AlphaGO战胜三届欧洲围棋冠军选手樊麾后，与游戏相关的人工智能研究出现爆发式增长，2015—2022年的7年里，相关论文数量就达到1625篇，其中有17篇论文成为《自然》（Nature）和《科学》（Science）的封面文章。[3]

游戏推动人工智能算力基础设施GPU（图形显卡）创新迭代。以芯片公司英伟达为例，从1995-2022年英伟达游戏及数据中心业务营收及总营收变化情况来看，早期英伟达收入几乎全部来自于游戏业务，依托游戏业务的英伟达完成了资金积累，并构筑起技术壁垒，为后续转型蓄力。如今，英伟达凭借在游戏显卡的丰富技术积累和高额研发投入，快速崛起为人工智能芯片的龙头，目前英伟达在AI训练芯片市场占有率高达95%[4]。游戏显卡积累的许多技术，也成为英伟达GPU的关键底层能力，被运用到自动驾驶、医疗、生命科学、能源、金融服务、制造业等更多领域。

游戏为人工智能提供可控训练环境与清晰测量标准。游戏中包含着目标、规则和挑战，解决挑战的过程就体现了智能。因此，当创造一个能够完成某种游戏的程序时，可以认为这个程序将在一定程度上拥有某种“类人”的“智能”。一方面，游戏中具有丰富的人机交互场景和稳定可控的规则，能够解决人工智能科研场景缺失问题。另一方面，游戏为人工智能提供清晰测量标准，用游戏中清晰、可量化的规则评估人工智能的能力，可大幅提升技术迭代与测试效率。

伴随着技术迭代与应用创新，越来越多的企业、高校和科研机构开始基于游戏开展人工智能创新研究。游戏人工智研究已从最初致力于创造类人水平的智能体，实现在完美信息/非完美信息环境中与人类进行对抗（例如基于《星际争霸2》的人工智能AlphaStar，基于《DOTA2》的人工智能OpenAIFive等），延伸至关注游戏（虚拟环境）中各类内容的自动生成，从而进一步提升人机交互体验。在前不久，2023世界人工智能大会上，多所高校联合发起“游戏人工智能高校联合研究中心”，聚焦游戏与人工智能产业之间的发展关系。

从简单规则到复杂模拟：

人类教AI学会“行走与奔跑”

在众多关注交互体验的游戏人工智能研究中，比较典型的当属智能体的动作生成。智能体是能够根据不同的内外条件做出动作和反应的、被机器控制的虚拟或现实客体，典型代表是游戏中的非玩家控制角色（NPC）。智能体动作生成技术主要研究如何让智能体的行为动作能够像真人一样流畅和自然，进一步提升人机交互体验。如果说人工智能研究中计算机视觉、自然语言处理等领域分别关注图像、文字、语言理解方面的能力，那么智能体动作生成对应着人工智能对行为动作控制的领域。

历史地看，动作生成技术的发展经历了从简单规则到复杂模拟的过程，从最早的有限状态机到运动匹配算法，再到基于机器学习的作生成，通过模拟人类行为动作，智能体逐渐学会了像人类一样的行走与奔跑。

（一）基于规则匹配的动作生成

1、基于状态机的动作生成

在虚拟环境中，智能体的各种动作，如行走、跑步、跳跃、攻击等，被视为不同的状态。早期的开发者通常会使用“状态机”来控制智能体的行为动作，其做法是将智能体不同的动作根据不同的条件拼接到一起。该做法的优势在于能明确定义状态间的转换规则，例如行走状态可转变为跑步或跳跃。下图为游戏中智能体使用的有限状态机。

图1 游戏中的状态机示意图[5]

不难发现，该做法的优势在于能明确定义状态间的转换规则，例如行走状态可转变为跑步或跳跃；局限在于处理复杂的行为交互和预见未来的状态变化，可能有困难。由于需要手写逻辑从一个节点跳到另一个节点，对于高度复杂的系统，状态机的设计和维护可能会变得极为复杂和费时。

2、基于运动匹配的动作生成

为了解决状态机的应用局限，游戏人工智能科学家们开始探索更高效的动作生成方案，运动匹配技术(Motion Matching)应运而生。相比状态机，该技术不再需要手动拼接不同的动作捕捉数据片段，而是使用动作捕捉数据建立一个动作姿态数据库，根据智能体当前的状态和目标状态，实时选择和混合最合适的动作片段。由此，可根据角色的实时状态和环境因素，实现更复杂和精细的动画控制，让智能体呈现出更自然、流畅的动作效果。

图2 MotinMatching流程示意图[6]

当然，运动匹配技术在实践中也存在一定的局限，比如在使用时需要把所有的动画数据都保留在内存里，对内存占用较大；所有的动画都是数据库中已有的内容，无法实现动作动画的创新。即便是《荒野大镖客2》这样将NPC做得足够逼真的游戏大作中，也只是实现了“运动匹配”。虽然游戏为马设计了数百种不同的动作动画，甚至连喘气都有上百种不同的音，但这些都不是真正的智能，只是由庞大的状态机规则和动画资源堆叠而成。

（二）基于机器学习的智能体动作生成

无论是基于状态机还是运动匹配技术，本质上都并未实现真正的智能动作生成，在落地应用过程中都存在着系统复杂且损耗大的问题。那么，有没有一种方法可以在训练模型时随心所欲地添加尽可能多的动作数据，在运行游戏时也不需要把这些额外数据放进内存里的方案呢？

为此，海内外学界和业界进行了许多探索，尝试基于机器学习实现智能体动作的自动生成。在海外，美国EA公司于2021年开发出HyperMotion技术，极大提升了FIFA系列游戏中智能体动作的逼真程度和响应速度。该技术方案首先利用动作捕捉技术捕捉了22名人类职业足球运动员在比赛中超过870万帧的动作数据，然后使用机器学习算法从870万帧数据中不断学习，最终实现游戏内智能体动作的实时生成。[7]

在国内，2019年以来腾讯就尝试将自回归神经网络模型（ARNN）应用到智能体的动作生成解决方案中，并取得突破性进展。ARNN是一种广泛应用于分析和处理时间序列数据的机器学习算法，经常用在天气、股市预测等场景。如果能将其用在动作领域，就能实现通过大量真人动作捕捉从而输入数据训练，让AI模型预测出动作序列帧的下一帧，最终连贯生成完整、自然的动作。

为实现这一目标，2019年天美J3工作室的《逆战手游》团队联手腾讯RoboticsX实验室，基于ARNN模型的研究，开启并逐渐完成了游戏及机器人领域的交叉前沿技术——“智能体动作生成技术”研发。该技术以ARNN模型原理为基石，学习动作捕捉数据，通过数据驱动的自适应算法，让NPC或机器人能根据玩家操作或环境变化等外界不同反应，自动生成更像真实生物的动作、反应与表达。

图3 智能体动作生成技术示意图

腾讯逆战手游团队提出的这一套基于ARNN的动作生成技术解决方案，在业内实现了多个突破：

第一，为了落地自回归神经网络算法，研究人员从零建立起完整的工具链，并通过动作捕捉、动画预处理、训练与调优等步骤，建立起完整的制作管线。为了解决该技术在移动端应用时可能存在的网络同步和性能优化问题，团队采用了轨迹匹配技术、融合动画技术以及相应算法层面的解决方案，极大提升了整体的效果表现，降低了神经网络推理的内存开销。

第二，研究团队联合腾讯RoboticsX实验室，将智能体动作生成技术应用于四足机器人，帮助其实现智能控制、决策，并大幅提升训练效率。在算法本身的应用上，这套技术能帮助机器人提升思考能力，帮助机器人进行自主决策，自动根据外界反应，生成更像真实生物的动作、反应与表达。在持续的研究与训练下，搭载该技术的机器人经过大量模拟训练之后，已经学会了走、跑、跳、站立等真狗的动作，并能够灵活运用这些姿态去完成匍匐前进、跨栏跑、障碍物之间跑酷穿梭等各种任务；即使临时碰到预先不知道的障碍物，也能轻轻一闪，灵巧避开，自主修改运动轨迹，用不同路线方案完成既定目标（如下图）。[8]

图4 腾讯自主研发多模态四足机器人

从模仿到超越：

游戏人工智能影响现实世界

基于游戏环境，人类已经教会了人工智能如何更好地在虚拟环境中实现“行走与奔跑“，但游戏人工智能研究的价值并不止于此。正如《Science》杂志文章中提到，“在游戏中取得人工智能方面的进展，也将是朝着在现实世界中运行更强大、更灵活的人工智能系统所迈出的重要一步。”人工智能在游戏中通过“模仿”学到的十八般武艺，在多种现实问题和场景中都具有可迁移的、通用的特性与价值。

在国内外学界和业界的实践中，来自科研机构和企业的研究人员也在尝试将更多的游戏人工智能技术应用与其他领域，用游戏AI连接实体经济，在更多领域形成数字生产力：

在医疗诊断领域，游戏人工智能的相关技术在医学研究和临床实践等医疗健康领域也有所引用，包括个性化筛查、诊断、预后、监测、风险建模、药物发现和治疗反应预测等等。尤其是在提高疾病识别和诊断的速度以及准确性方面，游戏人工智能技术提供了有效的支持。游戏人工智能技术还可以通过历史数据模拟患者病情或手术的虚拟场景，通过强化学习来为医疗决策提供支持，同时也使得机器人辅助手术成为可能。

在教育活动领域，游戏人工智能也拥有着巨大的应用潜力。一方面，人们可以参考游戏人工智能的研究成果，创建或完善“基于游戏的学习”（Gamebased learning）、“游戏化教育”（Gamification in Education）等新形式的教学活动，从而在传统教学的过程中融入游戏所特有的要素、机制，达成提升学习效果的目的；另一方面，人们也可以利用《我的世界》《星际争霸》《王者荣耀》等游戏环境，来帮助人工智能教学活动的进行（事实上，当前强化学习的教学活动，几乎不可能脱离游戏环境来进行）。[9]

可以预见的是，在未来一段时间中，让游戏人工智能技术走出游戏环境将成为一个主要的应用方向。我们也期待，游戏人工智能能够在走出虚拟世界后，助力各行各业的创新发展。

感谢腾讯天美J3工作室多位专家在本文写作过程中给予的指导。

为您推荐

从模拟到创新：人工智能从游戏中学到了什么？