谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

2024-02-27 阅读 44 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

真正的「基础世界模型」诞生了！谷歌团队发布110亿参数Genie「精灵」，从一张图片就能创造出可玩的虚拟世界，动作可控碾压Sora。网友惊叹，AI已经杀到视频游戏领域了。

就在昨天，谷歌DeepMind重磅发布了一个基础世界模型——Genie「精灵」。

从一个图像，一张照片，一个草图中，它就能生成一个无穷无尽的世界。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

当红炸子鸡Sora虽然创造了令人惊叹的场景，但它们的动作并非可控。

而Genie将成为游戏规则的改变者，创造的虚拟场景可以像电子游戏一样进行互动。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

论文地址：https://arxiv.org/abs/2301.07608

Genie的疯狂之处在于，学习了20万小时的未标注互联网视频，无需监督即可训练。

无需任何动作标注，便可以确定谁是主角，并让用户能够在生成的世界中对其控制。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

凭借110亿参数，Genie确立了自己作为基础世界模型的地位

具体来说，它是通过潜动作（latent action）模型、视频分词器，以及自回归动态模型三大核心组件来实现的。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

由此产生的学习潜动作空间，不仅使用户交互成为可能，而且还有助于训练智能体模仿看不见的视频中的行为。

因此，Genie为培养未来的通才智能体开辟了崭新的途径，重塑了交互式生成环境的格局。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

所以，谷歌DeepMind会用「精灵」为虚拟世界的创建，带来一场新的革命吗？

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

AI视频游戏要变天了！

令人惊叹的是，Genie创造一个全新的交互环境只需要一张图像，恰恰为进入虚拟世界开辟了新的途径。

通过最先进的文本到图像生成模型来制作起始帧，然后通过Genie让它们「活」起来。

而且，甚至可以将Genie应用到人类设计的草图或现实世界的图像上！

Genie团队的负责人Tim Rocktäschel称，「Genie作为世界模型，是人类迈向AGI的旅途中非常重要的一步。」

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

正如LeCun所说，世界模型需要「动作」。Genie是一个动作可控的世界模型，但完全是通过无监督的视频训练出来的。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

论文作者Jeff Clune称，「任何人，包括孩子，都可以画一个世界，然后『走进它』并探索它」！

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

他把孩子们的画作输入Genie，然后就看到老鹰在空中飞来飞去了。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

英伟达科学家Jim Fan表示，与Sora不同，Genie实际上是一个由行动驱动的世界模型，具有推断行动的能力。2024年也将是「基础世界模型」年！

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

「Genie是令人疯狂的视频游戏生成器」。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

也有网友认为，谷歌DeepMind的Genie对视频游戏来说比Sora更重要。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

它是一个基础世界模型，从未标记的互联网视频中训练而来，可以在图像提示下生成无数种动作可控的虚拟世界（即交互式视频游戏）。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

「鉴于DeepMind和OpenAI在游戏引擎方面的悠久历史，我敢打赌，Sora/ChatGPT时刻很快就会在视频游戏中到来」。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

构建交互世界的基础模型

Genie是一种全新的生成式AI范式，仅凭一张图像，就能创造出互动性强、可玩的环境。

Genie能将从未见过的图像作为提示，起到一个世界基础模型的作用——无论是现实世界的照片还是简单的草图，都能让人们与自己幻想中的虚拟世界进行互动。

而且，这一切都在没有任何动作标注的情况下实现的。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

Genie所展示的惊人突破，是通过分析超过200,000小时的公开互联网游戏视频学习而来的，主要包括2D平台游戏和机器人领域的视频。

理论上，这个方法可以适用于任何领域，并且能够处理越来越大的互联网数据集。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

Genie的独特之处在于，它能够仅通过观看互联网上的视频，就学会对细节进行精确控制。

这项技术面临着不小的挑战，因为网络视频往往缺乏动作标注，甚至不明确指出图像中哪些部分可以被操作。

然而，Genie不仅能识别出哪些图像元素是可控的，还能够洞察到各种隐含的动作，并确保这些动作在它创造的不同环境中保持一致。

值得一提的是，即使是在不同的图像提示下，相同的latent action也会引发相似的行为表现。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

为全能AI智能体铺平道路

Genie不仅是一个创新工具，它还为培养能够适应多种环境的AI智能体提供了新的可能性。

过去的研究已经证明，使用游戏环境可以有效地开发AI智能体，但通常当时能用的游戏数量有限。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

论文地址：https://arxiv.org/abs/2301.07608

相比之下，Genie学会的动作是可以被应用到真实世界中去的。

借此，我们便能够让未来的AI智能体在一个不断扩展的新世界中进行训练。

生成式虚拟世界的新未来

谷歌称，虽然Genie目前的展示主要在游戏上，但其未来应用远不止于此。

它是一个通用的工具，能够跨越多个领域，而且不需要额外的专业知识就能使用。

就比如，在机器人领域，Genie模型能够让其处理现实世界中的一些任务。

研究人员使用来自RT1的无动作视频训练了一个较小的2.5B模型。

正如在平台游戏中所见，相同动作序列的行为轨迹，通常会表现出相似的模式。

这意味着Genie能够掌握一组统一的动作模式，这对于训练能够在现实世界中灵活应对各种情境的AI智能体来说，具有重要意义。

Genie还能够模拟可变形物体，这是一个对传统由人设计的模拟器来说颇具挑战的任务，但Genie能够通过分析数据学会如何做到这一点。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

Genie的诞生，开启了一个全新的时代，让我们能够仅凭图像或文字创造出完整的可交互世界。

谷歌坚信，它将成为推动未来全能AI智能体成长的关键力量。

实现方法

Genie架构中的关键组件是基于视觉Transformer（ViT）。

值得注意的是，Transformer的二次方内存成本对于视频来说是一个挑战，因为视频中可以包含多达 ????(10^4) 个token。

因此，研究人员采用了一个内存高效的ST-transformer架构（见图4），在所有模型组件中平衡模型容量与计算限制。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

与传统的Transformer不同，其中每个token都关注所有其他token，一个ST-transformer包含????个时空块，其中交错有空间和时间注意力层，之后是一个标准注意力块的前馈层（FFW）。

空间层中的自注意力关注每个时间步内的1 × ???? × ????个token，而时间层关注???? × 1 × 1个token跨越????个时间步。

与序列Transformer类似，时间层假设一个因果结构，带有一个因果掩码。

更关键的是，Genie架构中计算复杂度的主导因素（即空间注意力层）与帧数的增长，呈线性关系而非二次方关系。

这使得它对于视频生成变得更加高效，能够在延长的交互中保持一致的动态。

此外，注意在ST块中，研究人员在空间和时间组件之后只包含一个FFW，省略了空间后的FFW，以便扩展模型的其他组件，并观察到显著提高了性能。

如图3所示，Genie模型包含了三个关键组件：

1) 潜动作模型（LAM），用于分析每两帧之间可能发生的动作????

2) 视频分词器，将视频的每一帧转换为一系列的离散符号????

3) 动态预测模型，根据之前的动作和帧token来预测视频的下一帧内容

研究人员采用了一个分阶段的训练方法，首先训练视频转换器，然后再同时训练潜在动作模型（直接基于视频像素）和动态预测模型（基于转换后的视频token）。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

潜动作模型

对于潜动作模型（LAM），作者的目标是能够控制视频内容的生成，即通过预测每一帧之后发生的动作来，生成未来的视频帧。

但是，这样的动作信息在网络视频中很难直接获取，而且标注动作的成本也非常高。

因此，研究人员采用了一种完全无监督的学习方法，来识别这些潜在的动作（如图5所示）。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

视频分词器

研究人员将视频压缩为离散token，以降低维度并实现更高质量的视频生成（见图6）。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

动态预测模型

动态预测模型是一个仅解码器的MaskGIT的Transformer（图7所示）。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

推理：动作可控视频生成

如何使用Genie在推理时，生成动作可控的视频（见图8）。

用户首先用图像????1（作为初始帧）来提示模型。使用视频编码器对图像进行标记，得到????1。然后通过选择[0, |????|]内的任意整数，来指定要采取的离散潜在动作????1。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

动态模型采用帧token ????1和相应的潜在动作 ̃????1（通过在VQ码本中使用离散输入????1进行索引而获得）来预测下一帧????2。

当动作继续传递给模型，重复此过程以自回归方式生成序列谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命的其余部分，同时将token通过分词器解码为视频帧。

实验结果

模型缩放

研究人员开发了一个分类器来筛选高质量的视频子集，并通过规模化实验发现，随着模型参数和批大小的增加，模型的性能也会稳步提升。

因此，对于最终模型，研究人员使用256个TPUv5p训练批大小为512的动态模型，总共125k个步骤。

与分词器和动作模型结合使用时，参数总数达到10.7B，并在942B个token上进行训练。

最终得到了，有11B参数的模型Genie。

这里的关键在于数据和算力！

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

定性结果

平台训练模型

图10显示了由OOD图像提示Genie生成的示例，包括（第一行）从Imagen2生成的图像，（第二行）手绘草图和（第三行）真实照片。

Genie能够将这些想象的世界变为现实，因为我们在与每个例子互动时都能看到类似游戏的行为。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

Genie模型的另一新能力便是理解3D场景和模拟视差，这在平台游戏中很常见。

在图12中，研究人员显示了Imagen2生成的图像，其中采取潜在动作以不同的速率将前景移动到背景（如不同颜色箭头的长度所示）。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

机器人训练模型

研究人员还发现，Genie可以成功地从视频数据中学习了不同且一致的动作，既不需要文本也不需要动作标记。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

值得注意的是，模型不仅学习机械臂的控制，还学习了各种物体的相互作用和变形物体。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

训练智能体

研究人员相信，Genie有朝一日可以用作训练多面手智能体的基础世界模型。

在图14中，他们展示了该模型，已经可以用于在给定起始帧的未见过的RL环境中生成不同的轨迹。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

研究人员还在一个程序化生成的 2D 平台游戏环境的难易设置中进行了评估，并将其与oracle行为克隆模型（BC）进行了比较（图15）。

在只有200个专家样本的情况下，基于LAM的策略获得了与Oracle相同的分数，尽管几乎可以肯定的是，CoinRun以前从未见过。

这证明了所学的潜在行动是一致的，并且对转移有实际意义，因为从潜在行动到实际行动的映射，不包含任何有关当前观察的信息。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

消融研究

潜在动作模型的设计选择

在潜在动作模型输入的消融的研究中，可以看到Genie实现了更高的可控性。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

分词器架构消融

研究人员的ST-ViViT架构成为性能最佳的分词器。

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

团队介绍

Yuge (Jimmy) Shi

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

Yuge (Jimmy) Shi曾是牛津大学Torr Vision Group的机器学习博士生，导师是Philip Torr。毕业后，入职谷歌成为一名研究科学家。

在此之前，她还在澳大利亚国立大学获得了工程学学士学位。

详细的团队成员和贡献如下：

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

参考资料：

https://sites.google.com/view/genie-2024/?pli=1

https://arxiv.org/abs/2402.15391

https://twitter.com/_rockt/status/1762027814369267901

文章来自于微信公众号 “新智元”，作者 “新智元”

Sora无法替代人类！亚马逊工程师断言：实际工作冲突不可能靠AI解决

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3739 用户在看

AI写作网站自动的生成文章可以用吗？

304 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

270 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

249 用户在看

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

真正的「基础世界模型」诞生了！谷歌团队发布110亿参数Genie「精灵」，从一张图片就能创造出可玩的虚拟世界，动作可控碾压Sora。网友惊叹，AI已经杀到视频游戏领域了。

AI视频游戏要变天了！

为全能AI智能体铺平道路

生成式虚拟世界的新未来

实现方法

实验结果

模型缩放

定性结果

机器人训练模型

训练智能体

消融研究

团队介绍

Sora无法替代人类！亚马逊工程师断言：实际工作冲突不可能靠AI解决

大模型追不上了？不妨尝试把主战场放在垂直模型

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3739 用户在看

AI写作网站自动的生成文章可以用吗？

304 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

270 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

249 用户在看

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

真正的「基础世界模型」诞生了！谷歌团队发布110亿参数Genie「精灵」，从一张图片就能创造出可玩的虚拟世界，动作可控碾压Sora。网友惊叹，AI已经杀到视频游戏领域了。

AI视频游戏要变天了！

为全能AI智能体铺平道路

生成式虚拟世界的新未来

实现方法

实验结果

模型缩放

定性结果

机器人训练模型

训练智能体

消融研究

团队介绍

Sora无法替代人类！亚马逊工程师断言：实际工作冲突不可能靠AI解决

大模型追不上了？不妨尝试把主战场放在垂直模型

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿