![](https://www.265xx.com/res/images/mobile.png)
斯坦福 & 谷歌研发“生成式智能体”,让游戏 NPC “活了”
撰文 | 李 熙
编辑 | 杨博丞
题图 | IC Photo
电子游戏业经历了三十多年的牛市,游戏中的 NPC 在画面视效上有了飞跃,然而互动智能上并没有给玩家相似的体验提升。
玩家们在 1995 年的国产角色扮演游戏里,见过渔夫 NPC 只会重复一句 " 今天是钓鱼的好天气 ";在 2017 年的育碧开放沙盒游戏里,听过玻利维亚乡民 NPC 反复只说单调的西语粗口。
其他领域的人工智能已经改头换面,但用在游戏 NPC 上的人工智能长久以来还像复读机。" 身边枪林弹雨,NPC 八风不动 " 的哏,已经让瑞恩 · 雷诺兹老师拍成热卖电影了。
电影《失控玩家》截图
在大语言模型风靡的当下,以之改造游戏 NPC 成为可能。然而 2023 年 4 月 7 日,斯坦福大学和谷歌的研究者在预印本平台上发布的论文,成就远过于业界期待:NPC 岂止更聪明,简直算是 " 活过来了 "。
01.
开游戏业与 AI 界 40 年未有之先河
生成式 AI 和大语言模型兴起前,用 AI 改善游戏 NPC 的努力,一般是在更易实现的强化学习方向,其中最出名的是 2019 年在 DOTA2 里击败人类世界冠军的 OpenAI 公司制作的 5 个 AI。
这种思路的概括,是用有清晰争胜目标的对抗性环境来作为奖惩机制来训练 NPC,最终完成的 AI 架构能让 NPC 自我修正行为以取得胜利目标。
OpenAI 的 DOTA2 AI 与人类对战截图
不过游戏业的产品生态不止于此。不少游戏产品以夺旗、清空敌手等可以明确定义的对抗性胜利目标为基础,但很多游戏没有这种对抗性,游戏机制是模拟下厨、卖杂货、拖拉机耕地、校园恋爱等随机度更高的活动。更多游戏的机制是开放性沙盒,没有明确定义的取胜路径与规则。
这些游戏的 NPC 功能如何从 AI 技术革命中获益,很长时间内业内大公司暂时还没明确答案。
然而 2023 年 4 月中旬谷歌与斯坦福大学研究者的论文《生成式行为体:人际行为的交互式互动》,给出了通往答案的路径:用大语言模型,让沙盒模拟游戏里的 NPC" 获得生命 "。
研究者称,过去四十年来,学界尝试过创造行为可信的 NPC 的各种途径,但在实际应用中,这些途径基于简单环境或智能体行为的单调维度,否则无法运行。而此研究的成功,突破了上述局限。
02.
原理:ChatGPT 让 NPC" 思考 ",本地数据库让 NPC" 记忆 "
简单来说,研究者通过普通编程,为一个《模拟人生》类型游戏的虚拟小镇中的 NPC 们写好了虚拟环境设定、智能体人物设定、记忆库架构、拟定计划等各方面程序代码。然后在 NPC 与虚拟环境间、多名 NPC 之间的每次接触时,将以上各方面基础数据、互动环境等以自然语言描述后,通过应用程序接口输入给 ChatGPT,再将 ChatGPT 的答案作为 NPC 下一步行为的指令。
具体而言,研究中的 " 生成式行为体 "NPC,其决策路径如下图所示:感知-录入记忆流-检索记忆库-反思/计划-行为
" 生成式行为体 " 决策路径简图
" 感知 " 是 NPC 行为体对互动、虚拟环境等的信息输入,录入 " 记忆流 " 后,与记忆数据库对比。
然后 " 检索 " 是从数据库中提取相关的记忆事项,NPC 行为体会用自然语言将事项输入给 ChatGPT,由大语言模型来决策事项的优先级,优先级由事项的晚近程度、ChatGPT 判断的重要度与相关性为判断基准。给出的答案作为 NPC 思维流程的下一步输入词。
接着,数据库与大语言模型会开始 NPC 的 " 反思 " 过程,数据库将行为体最近 100 条记忆事项以自然语言输入 ChatGPT,让大模型来推断出由此可知最重要 / 相关的观点。
" 检索 " 获取的答案、" 反思 " 得出的观点、结合 NPC 本身的人设数据,都以自然语言自动再次输入 ChatGPT,用大模型得出最符合人类行为逻辑的行动指令。
试运行截图
如此设计的用意,是因为大语言模型在训练期间已经被写入了广泛的人类行为资料,在给出背景涵义足够精准的提示词时,ChatGPT 等大模型可以生成高拟真度的人类行为预测答案。
然而在这个迅速惊艳世界的功能后,大语言模型存在小瑕疵:它不能记住每个用户的个性化录入内容,所有用户与模型间的对话都不能直接修改模型的参数,任何显得 ChatGPT 有记忆的表现都是算法在复读最时新的用户录入内容缓存。
所以谷歌与斯坦福的研究者,结合存储在云服务器上的数据库与 ChatGPT,来制作出能完成前述 " 思维步骤 " 的 NPC,让它们可以实时模拟人类的自主决策。固定数据库与软件架构是 NPC 佐助连续性思考的 " 记忆 ",而大语言模型是 NPC 用来即时性思考的 " 灵魂 "。
03.
效果:NPC 能自行谈恋爱和选镇长了
在研究者的试运行中,NPC 智能体可以做到没有人工干预微操、只给简单指令,就能自行完成复杂事件。当研究者让名叫伊莎贝拉的 NPC 筹划情人节聚会时,她自行在虚拟小镇中开始逐个邀请自己的朋友和熟人,并自行装饰作为聚会场所的咖啡馆。
智能体与虚拟环境间的互动可以完全自发且自洽。在环境状况设置为 " 食物引燃 " 的状况下," 伊莎贝拉 " 能自主做出 " 关闭燃气灶 " 的决策。如果这用普通编程也可以做到的话,智能体接下来的 " 重做早饭 " 行为,就是较前有显著突破的 AI 自发决策。
智能体之间的互动,已经达到可以模拟实际人际关系中的 " 信息扩散 " 与 " 协作 " 行为。
例如 " 伊莎贝拉 " 宣布要开情人节聚会后,她邀请到的 AI 智能体们又进一步邀请其他与伊莎贝拉无直接接触的 AI,例如名叫玛丽娅的 AI 就邀请自己的 " 暗恋对象 " 克劳斯一同赴会。
情人节聚会消息在 NPC 中扩散的过程
再如名叫 " 山姆 " 的 AI 宣布要竞选虚拟小镇镇长后,AI" 伊莎贝拉 " 与 " 汤姆 " 对此有自发的议论:" 伊莎贝拉 " 询问 " 汤姆 " 的意见," 汤姆 " 答出自己的观点:" 老实说我不看好山姆,他与本社区已经脱节,也并不真把我们的攸关利益放在心上 "。
在研究者的两日试运行中,虚拟小镇的 25 个 NPC 里,得知 " 山姆 " 参选镇长的从单个扩散到 8 个、得知 " 伊莎贝拉 " 办聚会的从单个扩散的 12 个,过程中完全无人工干预。并且 NPC 们在互动内容的置信度上部分超过了真人玩家。
论文里各种状态下 NPC 与人类的行为置信度对比量表
当然,论文出圈后的 "《西部世界》实现 " 热议并不准确。仔细的观察者们大都发现,不管所用的 ChatGPT 还是自制的 NPC 程序,并没有真正的自主人类意识,只是将大模型的相关性引擎性能潜力进一步发掘。
由于大语言模型的现有局限,研究中的 NPC 也经常有无厘头的 " 幻觉 " 缺陷。例如 NPC 观测到虚拟小镇中有 " 公厕 ",就不认为是 " 单人厕所 ",出现了 "AI 使用洗手间时常被其他 AI 闯入 " 的互动场景。虚拟小镇上的商店是下午五点关门,然而 NPC 们时常在歇业时间试图进入。有 AI 看到其他 NPC 的名字是亚当 · 史密斯,就说:" 啊我晓得你,你就是那个 18 世纪的经济学宗师。"
论文中提到了这些缺陷,还说 " 提示词黑客手段 - 即人类玩家用仔细准备好的对话内容来迷惑 NPC 行为体,可以让 AI 幻觉出从未发生的事件的记忆。"
现在很多游戏业者认为生成式 AI 的技术还在襁褓期,暴炒 Chatgpt 的人很多五六年前在狂吹加密货币。有名的波兰游戏公司 CD Projekt Red,其动作游戏系列的内容开发者领军人在 2023 年 1 月说,NPC 离自行建立一个生态活跃的虚拟社区,还太过遥远。
生成式 AI 的确是在襁褓期,但襁褓中的生物,最突出特征就是飞快的生长速度。AI 大模型将如何改变游戏业,实在让人充满憧憬。
最近更新教育教学
- 济南将碎片化经验总结提升,创新推出五项地方标准 让学前教育高质量发展有“标准”可
- 拓斯达:三季度实现扣非归母净利润同比增长27.39%,盈利能力持续提升
- “亚运薪火”与“宸星星火”同频共振 中学运动会迎来亚运冠军
- 多地清退编外人员,他们的“编外困局”:有人没资格报考所在岗位,有人因编外经历失去
- 民航局发布《活体动物航空运输工作指南》
- 合肥市淮河路第三小学教育集团映月校区:借数字应用于课堂 创智慧引领于教学
- 促进家校共育 巴蜀蓝湖郡小学开展家校共话成长系列活动
- 云南电网公司充分发挥公司律师四个作用助推企业高质量发展
- 汇聚邻里 共筑幸福丨合肥万科物业2023“朴里节”圆满落幕!
- 中拉跨越大洋高质量共建“一带一路”
- 广东报名自考有什么条件?
- 山东东营:文明宣讲进乡村 勤俭节约树新风
- 初中女生体测时突然心脏骤停……心肺复苏+AED“救了命”!
- 李刚,进京任职
- 1-9月海口港海关共受理“加工增值”试点扩区企业内销报关单404票 合计货值1.
- 重逢雁栖湖畔,国科大校友回家啦!
- 好水才能养好蟹
- 这种“鱼骨线”能变道吗?答案是……
- 今年上半年全球手机CIS传感器出货量20亿:同比下降14%
- 撑一支长蒿,向青草更青处漫溯
- 自考相对容易专业都有哪些?
- 远程“扶智”让优质教育资源“动”起来
- 黄喜灿:能被瓜迪奥拉称赞非常荣幸,新绰号可以向大家多宣传韩国
- AI赋能教育智变
- 同题观点