谷歌发布首款通用游戏AI Agent!
近日,谷歌DeepMind宣布推出一个可扩展指令多世界智能体(Scalable Instructable Multiworld Agent,SIMA)。
这是谷歌在AI游戏领域的一个新里程碑。SIMA是一个适用于各种3D虚拟环境的通用AI Agent,可根据自然语言指令在各种视频游戏环境中执行任务。
SIMA可以在3D游戏中执行导航、采矿等任务
从早期与游戏平台Atari合作到开发出以人类特级大师级别玩《星际争霸 II》的AlphaStar系统,SIMA的诞生标志着谷歌的研究重点将从单一游戏,转向通用、可指导的游戏AI Agent。
谷歌在最新发布的技术报告中解读了SIMA技术。团队联合游戏开发商对SIMA进行了各种视频游戏的训练。研究首次证明,Agent能够理解多样的游戏世界,并像人类一样遵循自然语言指令执行其中的任务。
但谷歌表示其目标并非追求游戏高分,而是通过让AI学会在各种游戏环境中遵循指令,解锁更实用、更适用于各种环境的AI Agent。其研究展示了如何通过语言界面,将高级AI模型的功能转化为现实世界中有用的行动。
论文地址:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
01.600项全能,从导航到采矿像人一样控制键鼠玩游戏
SIMA是一个具备感知与理解各种环境能力的AI Agent,它可以根据指示目标采取行动。
它包含专为精准图像语言映射设计的模型和预测屏幕后续变化的视频模型,谷歌DeepMind根据SIMA所适用的3D设置训练数据,对这些模型进行了优化。
谷歌DeepMind的AI Agent无需访问游戏源代码,也不需要定制API。它仅需两个输入:屏幕图像和用户提供的简洁自然语言指令。
SIMA利用键盘和鼠标控制游戏主角执行这些指令。这一界面与人类使用方式相同,意味着SIMA能与任何虚拟环境互动。
目前版本的SIMA通过600项基本技能评估,包括导航(如“左转”)、物体交互(“爬梯子”)和菜单使用(“打开地图”)等。谷歌DeepMind已训练SIMA执行大约10秒内可完成的简单任务。
SIMA可以在3D游戏中执行600多种任务
未来,谷歌DeepMind希望SIMA能处理需要高级战略规划和多个子任务的任务,如“寻找资源并建立营地”。
实现这一目标对AI来说意义重大,因为虽然大型语言模型已经能够捕获世界知识并生成计划,但它们目前还缺乏代表人类采取行动的能力。
02.跨游戏泛化能力:理解各种游戏环境碾压专用游戏Agent
谷歌DeepMind证明,相比仅学习一种游戏的Agent,经过多种游戏训练的Agent表现更佳。
在评估中,SIMA在九款3D游戏上进行训练,其表现明显优于那些仅在各自游戏中单独训练的Agent。
更重要的是,平均而言,在其他八款游戏中训练的智能体,在未曾接触过的那款游戏中的表现,几乎与专门针对那款游戏训练的Agent相当。这种在新环境中运行的能力突显了SIMA超越其训练范围的泛化能力。
虽然这是一个令人鼓舞的初步成果,但SIMA还需要进一步研究,才能在已知和未知的游戏中达到人类水平。
与人类玩家相比,以《无人深空(No Man’s Sky)》游戏测试显示,人类的玩家在这些任务中只有60%的成功率,SIMA代理取得了34%的成功率,远远超过了无语言基线的11%成功率。尽管如此,要赶上人类的表现,SIMA仍需努力。
谷歌DeepMind的结果还显示,SIMA的性能依赖于语言。在控制测试中,由于没有接受语言训练或指令,Agent的行为虽然合适但缺乏目的。比如,它可能会去收集资源,这是一种常见的行为,而不是按照指示行动。
SIMA的性能依赖于语言
谷歌DeepMind评估了SIMA按照指令完成近1500个独特游戏内任务的能力,其中部分任务使用了人类评委。
作为比较基准,谷歌DeepMind使用环境专用的SIMA代理的性能(在单个环境中训练和评估以遵循指令)。其将这种性能与三种类型的通用SIMA智能体进行了对比,这些智能体都经过多个环境的训练。
03.从九种视频游戏中学习让SIMA掌握语言与游戏行为的联系
为了让SIMA能够适应更多环境,谷歌DeepMind与八家游戏工作室合作,在九种不同的视频游戏上对SIMA进行了训练和测试,比如Hello Games的《无人深空(No Man’s Sky)》和Tuxedo Labs的《拆迁(Teardown)》。
这些游戏让SIMA学习从简单导航和菜单操作,到采矿、驾驶宇宙飞船,甚至是制作头盔等一系列技能。
此外,DeepMind还使用了四个研究环境,包括利用Unity引擎创建的“构建实验室(Construction Lab)”新环境。通过学习各种游戏世界,SIMA逐渐掌握了语言与游戏行为之间的联系。
团队的第一种方法是通过记录投资组合中的人类玩家在游戏中的表现,其中一名玩家观看并指导另一名玩家。同时,研究人员也让玩家自由游戏,然后观察他们的操作,并记录导致他们进行游戏操作的指令。
04.结语:通用AI Agent新开端游戏成练兵场
SIMA的研究结果显示,开发新一波通用、语言驱动的AI Agent有着巨大的潜力。目前这还处于早期研究阶段,DeepMind期待在更多训练环境中进一步改进SIMA,并引入更强大的模型。
随着谷歌DeepMind将SIMA暴露在更多的训练环境中,团队期望它能变得更为通用和灵活。通过采用更先进的模型,其希望提升SIMA对高级语言指令的理解和执行能力,从而完成更复杂的任务。
最终,谷歌DeepMind的研究旨在构建更加通用的人工智能系统和Agent,这些系统和Agent能够理解并安全地执行多种任务,为网络世界和现实世界的人们提供切实帮助。
文章来自于微信公众号“智东西”(ID:zhidxcom),作者 “李水青”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则