斯坦福 & 谷歌研发“生成式智能体”，让游戏 NPC “活了”

栏目：教育教学时间：2023-05-10

手机版

　　撰文 | 李熙

　　编辑 | 杨博丞

　　题图 | IC Photo

　　电子游戏业经历了三十多年的牛市，游戏中的 NPC 在画面视效上有了飞跃，然而互动智能上并没有给玩家相似的体验提升。

　　玩家们在 1995 年的国产角色扮演游戏里，见过渔夫 NPC 只会重复一句 " 今天是钓鱼的好天气 "；在 2017 年的育碧开放沙盒游戏里，听过玻利维亚乡民 NPC 反复只说单调的西语粗口。

　　其他领域的人工智能已经改头换面，但用在游戏 NPC 上的人工智能长久以来还像复读机。" 身边枪林弹雨，NPC 八风不动 " 的哏，已经让瑞恩 · 雷诺兹老师拍成热卖电影了。

　　电影《失控玩家》截图

　　在大语言模型风靡的当下，以之改造游戏 NPC 成为可能。然而 2023 年 4 月 7 日，斯坦福大学和谷歌的研究者在预印本平台上发布的论文，成就远过于业界期待：NPC 岂止更聪明，简直算是 " 活过来了 "。

　　01.

　　开游戏业与 AI 界 40 年未有之先河

　　生成式 AI 和大语言模型兴起前，用 AI 改善游戏 NPC 的努力，一般是在更易实现的强化学习方向，其中最出名的是 2019 年在 DOTA2 里击败人类世界冠军的 OpenAI 公司制作的 5 个 AI。

　　这种思路的概括，是用有清晰争胜目标的对抗性环境来作为奖惩机制来训练 NPC，最终完成的 AI 架构能让 NPC 自我修正行为以取得胜利目标。

　　OpenAI 的 DOTA2 AI 与人类对战截图

　　不过游戏业的产品生态不止于此。不少游戏产品以夺旗、清空敌手等可以明确定义的对抗性胜利目标为基础，但很多游戏没有这种对抗性，游戏机制是模拟下厨、卖杂货、拖拉机耕地、校园恋爱等随机度更高的活动。更多游戏的机制是开放性沙盒，没有明确定义的取胜路径与规则。

　　这些游戏的 NPC 功能如何从 AI 技术革命中获益，很长时间内业内大公司暂时还没明确答案。

　　然而 2023 年 4 月中旬谷歌与斯坦福大学研究者的论文《生成式行为体：人际行为的交互式互动》，给出了通往答案的路径：用大语言模型，让沙盒模拟游戏里的 NPC" 获得生命 "。

　　研究者称，过去四十年来，学界尝试过创造行为可信的 NPC 的各种途径，但在实际应用中，这些途径基于简单环境或智能体行为的单调维度，否则无法运行。而此研究的成功，突破了上述局限。

　　02.

　　原理：ChatGPT 让 NPC" 思考 "，本地数据库让 NPC" 记忆 "

　　简单来说，研究者通过普通编程，为一个《模拟人生》类型游戏的虚拟小镇中的 NPC 们写好了虚拟环境设定、智能体人物设定、记忆库架构、拟定计划等各方面程序代码。然后在 NPC 与虚拟环境间、多名 NPC 之间的每次接触时，将以上各方面基础数据、互动环境等以自然语言描述后，通过应用程序接口输入给 ChatGPT，再将 ChatGPT 的答案作为 NPC 下一步行为的指令。

　　具体而言，研究中的 " 生成式行为体 "NPC，其决策路径如下图所示：感知－录入记忆流－检索记忆库－反思／计划－行为

　　" 生成式行为体 " 决策路径简图

　　" 感知 " 是 NPC 行为体对互动、虚拟环境等的信息输入，录入 " 记忆流 " 后，与记忆数据库对比。

　　然后 " 检索 " 是从数据库中提取相关的记忆事项，NPC 行为体会用自然语言将事项输入给 ChatGPT，由大语言模型来决策事项的优先级，优先级由事项的晚近程度、ChatGPT 判断的重要度与相关性为判断基准。给出的答案作为 NPC 思维流程的下一步输入词。

　　接着，数据库与大语言模型会开始 NPC 的 " 反思 " 过程，数据库将行为体最近 100 条记忆事项以自然语言输入 ChatGPT，让大模型来推断出由此可知最重要 / 相关的观点。

　　" 检索 " 获取的答案、" 反思 " 得出的观点、结合 NPC 本身的人设数据，都以自然语言自动再次输入 ChatGPT，用大模型得出最符合人类行为逻辑的行动指令。

　　试运行截图

　　如此设计的用意，是因为大语言模型在训练期间已经被写入了广泛的人类行为资料，在给出背景涵义足够精准的提示词时，ChatGPT 等大模型可以生成高拟真度的人类行为预测答案。

　　然而在这个迅速惊艳世界的功能后，大语言模型存在小瑕疵：它不能记住每个用户的个性化录入内容，所有用户与模型间的对话都不能直接修改模型的参数，任何显得 ChatGPT 有记忆的表现都是算法在复读最时新的用户录入内容缓存。

　　所以谷歌与斯坦福的研究者，结合存储在云服务器上的数据库与 ChatGPT，来制作出能完成前述 " 思维步骤 " 的 NPC，让它们可以实时模拟人类的自主决策。固定数据库与软件架构是 NPC 佐助连续性思考的 " 记忆 "，而大语言模型是 NPC 用来即时性思考的 " 灵魂 "。

　　03.

　　效果：NPC 能自行谈恋爱和选镇长了

　　在研究者的试运行中，NPC 智能体可以做到没有人工干预微操、只给简单指令，就能自行完成复杂事件。当研究者让名叫伊莎贝拉的 NPC 筹划情人节聚会时，她自行在虚拟小镇中开始逐个邀请自己的朋友和熟人，并自行装饰作为聚会场所的咖啡馆。

　　智能体与虚拟环境间的互动可以完全自发且自洽。在环境状况设置为 " 食物引燃 " 的状况下，" 伊莎贝拉 " 能自主做出 " 关闭燃气灶 " 的决策。如果这用普通编程也可以做到的话，智能体接下来的 " 重做早饭 " 行为，就是较前有显著突破的 AI 自发决策。

　　智能体之间的互动，已经达到可以模拟实际人际关系中的 " 信息扩散 " 与 " 协作 " 行为。

　　例如 " 伊莎贝拉 " 宣布要开情人节聚会后，她邀请到的 AI 智能体们又进一步邀请其他与伊莎贝拉无直接接触的 AI，例如名叫玛丽娅的 AI 就邀请自己的 " 暗恋对象 " 克劳斯一同赴会。

　　情人节聚会消息在 NPC 中扩散的过程

　　再如名叫 " 山姆 " 的 AI 宣布要竞选虚拟小镇镇长后，AI" 伊莎贝拉 " 与 " 汤姆 " 对此有自发的议论：" 伊莎贝拉 " 询问 " 汤姆 " 的意见，" 汤姆 " 答出自己的观点：" 老实说我不看好山姆，他与本社区已经脱节，也并不真把我们的攸关利益放在心上 "。

　　在研究者的两日试运行中，虚拟小镇的 25 个 NPC 里，得知 " 山姆 " 参选镇长的从单个扩散到 8 个、得知 " 伊莎贝拉 " 办聚会的从单个扩散的 12 个，过程中完全无人工干预。并且 NPC 们在互动内容的置信度上部分超过了真人玩家。

　　论文里各种状态下 NPC 与人类的行为置信度对比量表

　　当然，论文出圈后的 "《西部世界》实现 " 热议并不准确。仔细的观察者们大都发现，不管所用的 ChatGPT 还是自制的 NPC 程序，并没有真正的自主人类意识，只是将大模型的相关性引擎性能潜力进一步发掘。

　　由于大语言模型的现有局限，研究中的 NPC 也经常有无厘头的 " 幻觉 " 缺陷。例如 NPC 观测到虚拟小镇中有 " 公厕 "，就不认为是 " 单人厕所 "，出现了 "AI 使用洗手间时常被其他 AI 闯入 " 的互动场景。虚拟小镇上的商店是下午五点关门，然而 NPC 们时常在歇业时间试图进入。有 AI 看到其他 NPC 的名字是亚当 · 史密斯，就说：" 啊我晓得你，你就是那个 18 世纪的经济学宗师。"

　　论文中提到了这些缺陷，还说 " 提示词黑客手段 - 即人类玩家用仔细准备好的对话内容来迷惑 NPC 行为体，可以让 AI 幻觉出从未发生的事件的记忆。"

　　现在很多游戏业者认为生成式 AI 的技术还在襁褓期，暴炒 Chatgpt 的人很多五六年前在狂吹加密货币。有名的波兰游戏公司 CD Projekt Red，其动作游戏系列的内容开发者领军人在 2023 年 1 月说，NPC 离自行建立一个生态活跃的虚拟社区，还太过遥远。

　　生成式 AI 的确是在襁褓期，但襁褓中的生物，最突出特征就是飞快的生长速度。AI 大模型将如何改变游戏业，实在让人充满憧憬。

上一篇：沈白高铁工程取得重大进展关口隧道顺利贯通
下一篇：如何了解小学生德语哪个培训机构好？

斯坦福 & 谷歌研发“生成式智能体”，让游戏 NPC “活了”

最近更新教育教学