红杉资本对话英伟达Jim Fan:为类人机器人构建AI大脑,甚至超越类人机器人;

图片来源:Sequoia Capital – TrAIning Data

Z Highlights

  • 具身化AI的未来突破“GPT-3时刻”:Jim Fan提出,类人机器人将可能在低级动作控制方面迎来类似GPT-3的技术飞跃,使机器人能够通过理解和执行复杂的指令,完成各种实际任务。

  • 三类数据策略,互联网、模拟和真实机器人数据的结合:成功的机器人技术需要结合互联网规模的数据、模拟生成的数据,以及真实机器人收集的数据,以弥补各自的不足,推动机器人基础模型的发展。

  • 虚拟世界与现实世界的连接,基础Agent的愿景:Jim Fan展望了虚拟世界和物理世界的统一,提出未来的AI Agent将能够适应多种技能、身体形态,并在虚拟和现实世界中通用,从而推动游戏和机器人技术的双重发展。

Stephanie Zhan:欢迎来到今天的Training Data。我们与NVIDIA的高级研究科学家Jim Fan进行了对话。Jim负责NVIDIA的Embodied AI Agent研究,该研究领域涵盖了物理世界中的机器人技术和虚拟世界中的游戏AI Agent。Jim的团队负责NVIDIA的Groot项目,你可能在GTC大会上看到过机器人Jetson,我们决定向Jim询问有关机器人技术的所有问题。为什么选择现在?为什么要研究类人机器人?怎样可以达到实现机器人的技术条件?

从OpenAI实习生到斯坦福研究具身AI

Stephanie Zhan:非常感谢你加入我们。我们非常期待今天能深入了解你关于机器人技术和日常应用的分享。在讨论这些内容之前,你有一个非常有趣的个人经历。首先,你是OpenAI的第一批实习生之一,你能分享一下你的个人经历以及你是如何走到今天这一步的吗?

Jim Fan:当然,我非常乐意与大家分享这些故事。2016年夏天,我的一些朋友告诉我有一家新的创业公司,建议我去看看。那时我没有其他事情要做,因为我已经被录取为博士生。那个夏天我比较闲,所以我决定加入这个创业公司。后来这个创业公司就是OpenAI。在OpenAI的日子里,我们已经在讨论AGI。当时,我的面试导师是Andrej Karpathy和Ilya Sutskever,我们一起讨论了一个项目,叫做World of Bits。这个项目的想法非常直接,我们想构建一个能够读取计算机屏幕像素并控制键盘和鼠标的AI Agent。如果你想想这个界面,它实际上是一个非常通用的界面。我们在计算机上做的所有事情,比如回复邮件、玩游戏、浏览网页等,都可以通过这种映射像素到键盘和鼠标控制的方式来完成。这实际上是我第一次尝试AGI,也是我在OpenAI的AI Agent项目中的第一章。

Sonya Huang:我记得那些事情,实际上我不知道你参与了其中。

Jim Fan:是的,这真的是一个非常有趣的项目,它是一个更大计划的一部分,叫做Universe,这是一个更大的平台,用来整合所有应用程序和游戏进入这个框架中。

Sonya Huang :你认为当时Agent面临的一些挑战是什么?

Jim Fan:当时,我们使用的是强化学习(Reinforcement Learning),但那时没有使用大语言模型或Transformer模型。强化学习在特定任务上有效,但它不能很好地泛化。比如,我们不能给Agent语言指令,让它做出像人类那样可以完成的所有事情,比如使用键盘和鼠标。我们当时设计了某些任务,Agent可以完成这些任务,但它并不能很好地泛化。

然后,我开启了下一章的旅程——我去了斯坦福大学,跟随Fei-Fei Li教授攻读博士学位,主要研究计算机视觉和具身化的人工智能。在我斯坦福的几年(2016-2021年)里,我见证了实验室从静态的计算机视觉,转向了具身化的计算机视觉。在具身化的计算机视觉中,AI不仅学习感知,还在交互环境中做出行动。这个环境既可以是虚拟的模拟环境,也可以是物理世界。这就是我博士研究期间向具身化AI过渡的过程。之后,我从斯坦福毕业后加入了NVIDIA,并一直在那里工作至今。我将我博士论文中的研究内容带到了NVIDIA,并继续从事具身化AI的研究。

具身化AI与NVIDIA Groot项目

Stephanie Zhan:你目前负责NVIDIA的具身化AI研究团队,可以详细介绍一下你们的工作内容以及你们的目标是什么吗?

Jim Fan:当然。我们目前的团队叫做GEAR,意思是“通用具身化Agent研究”(ZP注:Generalized Embodied Agent Research)。我们生成动作,因为我们构建的是具身化的AI Agent,而这些Agent在不同的世界中采取行动。如果这些行动发生在虚拟世界中,它们就属于游戏AI和模拟领域。如果这些行动发生在物理世界中,它们就属于机器人技术。今年3月的GTC大会上,Jensen在他的主题演讲中展示了一个项目,叫做NVIDIA的登月计划(Moonshot),旨在为类人机器人构建基础模型,而这正是我们团队目前的主要研究方向。我们的目标是为类人机器人构建AI大脑,甚至超越类人机器人。

Sonya Huang:你认为NVIDIA在机器人技术上具有什么样的独特优势?

Jim Fan:这是一个很好的问题。首先,肯定是计算资源。这些基础模型的扩展需要大量计算资源,我们相信规模效应是关键。虽然在其他领域已经有了Scaling Laws,但具身化AI和机器人技术的规模定律尚未被研究清楚。我们正在努力探索这一点。NVIDIA的另一个优势是模拟技术。

在成为AI公司之前,NVIDIA是一个图形技术公司,因此我们在构建物理模拟和渲染技术以及GPU上的实时加速方面有着多年的经验。我们在机器人技术的研究中大量使用了这些模拟技术。

机器人数据策略与模拟技术的挑战

Sonya Huang:模拟策略非常有趣。为什么你认为行业中大部分人依然非常专注于真实世界的数据,而不是模拟数据?

Jim Fan:我认为我们需要各种数据,模拟数据和真实世界的数据单独都不够用。在GEAR团队中,我们将数据策略大致分为三类:第一类是互联网规模的数据,比如所有在线文本和视频;第二类是模拟数据,我们利用NVIDIA的模拟工具生成大量的合成数据;第三类是真实机器人数据,我们通过远程操控机器人来收集并记录这些数据。我相信一个成功的机器人策略将有效地结合这三类数据并加以利用,最终实现统一的解决方案。

Stephanie Zhan:你之前提到过,数据是让机器人基础模型真正发挥作用的关键瓶颈之一。能否详细谈谈你对这一观点的看法?以及究竟需要什么样的数据才能突破这个问题?

Jim Fan:好的,我认为刚才提到的三类数据各有其优势和劣势。首先是互联网数据,它是最具多样性的数据,包含了大量的常识性先验知识。比如,互联网上大部分视频都是以人为中心的,因为人类喜欢自拍,也喜欢记录自己进行各种活动。而且网上还有很多教学视频,可以帮助我们了解人类如何与物体互动,以及物体在不同情境下的表现。因此,互联网数据为机器人基础模型提供了常识性的先验知识。但问题在于,这类数据没有包含机器人动作的控制信号。

这就引出了第二类数据——模拟数据。在仿真环境中,我们不仅可以控制机器人动作,还可以观察这些动作在特定环境中的结果。模拟数据的优势在于,它可以生成无限的数据量,并且数据生成的速度可以随着计算资源的增加而加快。我们可以利用GPU加速模拟器,将数据收集速度提高到真实世界的10000倍。因此,我们在相同的时间内可以收集到更多的数据。但模拟的劣势在于,无论图形管道多么先进,模拟和现实之间始终存在差距。物理规则和视觉效果永远无法完全与现实一致,内容的多样性也不如我们在现实世界中遇到的场景。

接下来是第三类数据——真实机器人数据。这类数据没有模拟与现实之间的差距,因为它是通过真实机器人采集的。但这种数据的获取成本非常高昂,因为你需要雇佣人类来操控机器人。而且它受时间限制,每天只有24小时来收集数据,这大大限制了数据收集的速度。因此,这三类数据各有优劣,成功的策略在于结合它们的优势,并努力弥补各自的不足。

Stephanie Zhan:你提到了在GTC大会上展示的类人机器人,它们的出现引发了巨大的反响。如果你展望未来五到十年,你希望你的研究团队能够取得哪些成就?

Jim Fan:这纯属猜测,但我希望在未来两到三年内,我们能在机器人基础模型的研究上取得突破,可能迎来类似GPT-3时刻的机器人技术飞跃。之后的事情就不太确定了,因为要让机器人真正进入人们的日常生活,技术之外还有很多问题需要解决。比如,机器人需要足够便宜,能够大规模生产,还需要确保硬件的安全性,并且遵守隐私和法规等问题,这些可能需要更长时间才能实现。所以我希望在未来的两到三年内能够看到研究上的突破,但要实现大规模的市场应用可能还需要更长时间。

未来展望:类人机器人与GPT-3时刻

Sonya Huang:你认为什么样的成果可以定义机器人技术的“GPT-3时刻”?

Jim Fan:这是个很好的问题。我倾向于将机器人系统分为两个部分:系统1和系统2。这来源于《Thinking fast and slow》这本书,其中系统1是无意识且快速的低级运动控制,比如当我拿起水杯时,我并没有真的思考每毫秒如何移动我的指尖,这就是系统1。而系统2则是慢速且深思熟虑的,它更像是推理和计划的过程,使用我们的有意识思维。我认为机器人技术的“GPT-3时刻”会出现在系统1这边。

一个我喜欢的例子是“打开”这个动词。“打开”这个词的复杂性非常高,比如打开一扇门和打开一扇窗户,或者打开一个瓶子,甚至是打开手机屏幕。对于人类来说,我们毫不费力地理解这些不同的“打开”对应不同的动作,但到目前为止,还没有看到一个机器人模型可以在低级动作控制方面很好地泛化这些动词。所以,我希望未来可以出现一个模型,能够理解这些动词的抽象意义,并且能够在各种情况下做出符合人类认知的操作。我们还没看到这样的模型,但我对未来两到三年内能实现这个目标充满希望。

Stephanie Zhan:那么关于系统2的推理,你认为我们能实现这个目标吗?你觉得大语言模型领域的推理能力会对机器人领域有用吗?

Jim Fan:当然,我认为我们已经看到了非常强大的模型可以进行推理、计划,甚至编写代码。这些就是我们看到的当前最前沿的模型,比如GPT系列和其他大语言模型。但要将系统2模型与系统1整合起来,本身也是一个重大的研究挑战。因此,问题在于机器人基础模型是否需要一个单一的整体模型,还是我们应该采取某种分层的方式,将系统2和系统1分开,并以某种方式进行沟通。我认为这是一个悬而未决的问题。

分层的模型可能更好,因为在单一模型中,系统2和系统1的控制频率不同。系统2的决策频率较慢,可能是每秒一次决策,而系统1则负责更快的动作控制,比如当我抓住这个水杯时,我的肌肉每秒做出上千次的微小决定。将这些不同频率的控制过程都编码进一个模型中会非常困难。因此,分层的方式可能更合适,但问题在于系统1和系统2如何交流?它们是通过文本交流,还是通过某些潜在变量进行交流?目前尚不清楚。我认为这将是一个非常令人兴奋的研究方向。

Stephanie Zhan:你觉得在系统1层面取得突破会依赖于规模和Transformer模型的扩展吗?还是说这是我们希望而非确定的事情?

Jim Fan:我当然希望通过我之前描述的数据堆栈,能够最终达到这个目标。我感觉我们还没有完全探索Transformer的极限。Transformer最终是基于输入的token来进行运算,模型的质量取决于这些token的质量。在机器人技术中,如我所述,数据策略非常复杂。我们有互联网数据、模拟数据以及真实机器人数据。一旦我们能够将所有这些高质量的动作数据整合起来,并将它们输入到Transformer中进行压缩处理,我认为我们可能会看到一些随着数据规模和模型尺寸扩展而出现的性质。我称之为“具身化AI的规模定律”,这一研究才刚刚开始,但我对此非常乐观。

Sonya Huang :你个人最期待的是什么?当我们最终实现这些技术突破时,哪个行业或应用场景是你最希望看到的巨大变革?

Jim Fan:有几个原因让我们选择类人机器人作为主要的研究主题。首先,世界是围绕着人的形态和人体工学设计的,所有的餐馆、工厂、医院及其设备和工具都是为人类设计的。因此,原则上,一个足够好的类人硬件应该能够支持任何一个合理的人类可以完成的任务。虽然类人硬件目前还没有达到这个水平,但我觉得在未来两到三年内,类人硬件的生态系统将会成熟,我们将拥有可以大规模应用的、负担得起的类人硬件。之后,问题将转向如何为这些类人机器人开发AI大脑。

一旦我们能够构建出一个类人机器人基础模型,可以执行任何语言指令并完成任何合理的人类任务,那么我们将解锁巨大的经济价值。比如,机器人可以在家庭中帮助我们完成日常家务,如洗衣、洗碗和做饭,或者照顾老人。它们还可以在餐馆、医院、工厂中帮助处理各种人类的工作。我希望这些技术能在下个十年实现。但正如我之前提到的,这不仅仅是技术问题,还涉及到很多其他问题。因此,我非常期待未来的发展。

Stephanie Zhan:你选择类人机器人作为研究方向,还有其他更实际的原因吗?

Jim Fan:是的,另一个更实际的原因在于训练过程。互联网上有大量关于人类的视频和数据,几乎所有内容都围绕着人类展开。而类人机器人的形态最接近人类,这意味着我们用这些数据训练出来的模型可以更容易地适应类人的形态,而不是其他形态的机器人。

举个例子,机器人手臂的视频就很少,但我们可以找到大量关于人类手部操作的视频。因此,对于类人机器人,训练它们会相对容易。之后,我们还可以将这些模型专门用于其他形式的机器人,如机器人手臂和更具体的机器人形态。所以,这就是我们首先追求类人机器人的原因。

Sonya Huang :你们目前排除了使用机器人手臂和机器狗吗?

Jim Fan :是的,在 GEAR项目中,我们目前专注于类人机器人,但我们正在构建的模拟工具和真实机器人工具都是通用的,将来也可以适应其他平台。所以我们正在打造的这些工具是具有广泛适用性的。

Stephanie Zhan:你多次提到“通用”这个词。尤其在机器人领域,一些人认为通用的方法是行不通的,必须针对特定领域和环境来开发。你为什么选择追求通用的方法?你认为“通用”是否会在机器人领域重复其他领域的失败经验?

Jim Fan: 我想先提一下NLP(自然语言处理)领域的成功案例。在ChatGPT和GPT-3出现之前,NLP世界中有很多不同的模型和管道,分别用于翻译、编程、做数学、写作等不同的任务。每一个应用领域都有完全不同的模型和训练管道。

但之后ChatGPT出现了,它将所有这些任务统一成了一个模型。在ChatGPT之前,我们把这些任务称为“专家任务”,而ChatGPT则被称为“通用任务”。一旦我们拥有了通用模型,我们可以通过提示(Prompting)对其进行微调,从而解决各类专家任务。而这种通用模型微调后的“专家”往往比原来的专家模型更强大,并且更容易维护,因为我们只需要维护一个API来处理所有输入输出。

我相信我们可以将NLP领域的这种成功经验复制到机器人领域。现在2024年,大多数机器人应用依然处于专家阶段。它们为特定任务构建了特定的机器人硬件和训练途径。但GEAR项目的目标是构建一个通用的基础模型,首先应用于类人机器人,之后将其推广到所有形式的机器人。我们追求的就是这样一个“通用时刻”。

Sonya Huang:NVIDIA在构建Project GEAR时有一个独特优势,既拥有芯片,也有模型。你认为NVIDIA有哪些有趣的机会可以优化这一点?

Jim Fan:今年3月的GTC大会上,Jensen还展示了下一代边缘计算芯片,名为Jetson Orin。这款芯片实际上是和Project GEAR一起发布的。我们希望能够为客户提供一个从芯片到基础模型再到模拟工具的一体化解决方案。这将成为一个类人机器人和智能机器人的计算平台。

从芯片层面来说,Jetson Orin系列到Project GEAR的基础模型,再到我们沿途开发的模拟和工具,这一切将成为一个面向类人机器人和智能机器人的一体化计算平台。我想引用Jensen的一句名言:“任何会动的东西最终都会实现自动化。”我也相信这一点,虽然现在还没有实现,但假设十年或更长时间后,我们会有和智能手机一样多的智能机器人,那么我们现在最好开始着手构建这一切。

Stephanie Zhan:这太棒了。你目前的研究是否有一些特别的成果想要展示,能让你对当前的路径充满信心或乐观的?

Jim Fan:是的,我们可以谈谈一些我们之前的工作。其中一个让我非常高兴的项目叫做Eureka。在这个项目中,我们展示了一个五指机器手能够进行转笔的操作。它的表现甚至超越了人类,因为我自己早已放弃转笔了,我根本做不到。但这个机器人手能够做到这一点。我们使用的核心技术是利用LLM自动生成代码,具体来说是在NVIDIA开发的Isaac Gym API中生成代码。LLM会输出描述奖励函数的代码,奖励函数本质上是对我们期望的行为的描述。

通常情况下,奖励函数是由人类专家手工设计的,通常是非常了解API的机器人专家。这是一项非常耗时的工作,设计奖励函数的过程本身就是一项枯燥且重复的任务。Eureka项目设计了一个框架,可以利用LLM自动生成奖励函数,从而让机器人能够完成非常复杂的任务,比如转笔。我们计划将这种通用技术扩展到更多的任务,不仅仅是转笔,它还可以为其他各种任务设计奖励函数,甚至可以生成新的任务。这为我们的研究提供了巨大的发展空间。

Stephanie Zhan:为什么你认为五年前机器人领域的研究项目,比如机器人手操控魔方等,似乎进入了低谷?但过去一年,似乎机器人技术领域又重新热了起来。你认为这次机器人技术的“复兴”有什么不同?为什么现在是机器人技术的关键时刻?

Jim Fan:我认为有几个关键因素让现在与过去不同。首先是机器人硬件方面,实际上从去年年底开始,机器人硬件生态系统中出现了一波新的浪潮。像特斯拉的Optimus、波士顿动力等公司,以及很多初创公司都在推出越来越强大的机器人硬件。这些硬件的功能也在不断提升,比如手部的灵巧度、全身的稳定性等。

第二个因素是价格。我们也看到了类人机器人的生产成本显著下降。比如2001年NASA开发的类人机器人Robonaut,造价超过150万美元。而现在,有些公司可以将类人机器人的价格降至大约3万美元,接近一辆汽车的价格。此外,根据制造业的趋势,成熟产品的价格往往会趋向于其原材料成本。而类人机器人的原材料成本只占汽车的4%左右。所以我们有理由相信,未来几年内,类人机器人的成本将会大幅下降,这将使它们变得更加负担得起。这是类人机器人重新获得关注的第二个原因。

第三个因素是基础模型的发展。我们已经看到了系统2的问题,推理和计划问题在前沿模型中得到了非常好的解决,比如GPT、Claude和LLaMA等模型,这些大语言模型能够在新场景中进行推理、编写代码。正如我之前提到的,Eureka项目正是利用了LLM的编程能力来帮助开发新的机器人解决方案。此外,计算机视觉和感知领域的多模态模型也在不断改进。因此,这些进展鼓励我们追求机器人基础模型,因为我们可以利用这些前沿模型的通用能力,并在此基础上增加动作生成,从而驱动类人机器人。

Sonya Huang :我完全同意这一点。我觉得我们一直在努力解决的问题之一就是如何解锁构建这些模型所需的数据规模。在许多方面的研究进展,比如你自己对机器人操作等方面的贡献,以及NVIDIA开发的工具,比如Isaac Gym等,都极大地加速了这一领域的发展,再加上更便宜的远程操作设备等因素,我觉得现在是一个非常激动人心的时刻。

Jim Fan:是的,我很期待这一切。

探索虚拟世界与具身AI:从游戏到现实的跨界融合

Stephanie Zhan:现在我们转到虚拟世界的讨论吧。

Jim Fan:没问题。

Stephanie Zhan:你最初的研究更多是在虚拟世界领域。能不能谈谈你对Minecraft(我的世界)等虚拟世界的兴趣?以及这些与机器人技术有何关联?你对虚拟世界的兴趣源自哪里?

Jim Fan:这是一个很好的问题。对我来说,我的个人使命是解决具身化AI的问题。虚拟世界中的具身化AI意味着游戏和模拟领域的AI Agent。这也是为什么我对游戏AI充满热情,我自己也非常喜欢游戏。

Sonya Huang:你玩什么游戏?

Jim Fan:我玩Minecraft,但坦白说,我不是一个很厉害的玩家,这也是为什么我希望我的AI Agent能够弥补我在游戏中的不足。我之前参与了几个游戏项目,第一个是叫做MineDojo的项目。我们开发了一个平台,旨在培养在Minecraft中可以完成各种任务的通用Agent。对于那些不熟悉Minecraft的观众来说,Minecraft是一个沙盒游戏,玩家可以在其中自由创造和探索,制作各种工具、建造建筑、完成任务,并进行冒险。这个游戏没有固定的故事情节,也没有具体的得分目标。

我们从互联网上收集了大量数据,有人们玩Minecraft的视频,还有解释游戏机制的Wiki页面,这些都是多模态的数据。此外,我们还收集了像Reddit这样的论坛上的讨论数据。通过这些多模态数据集,我们能够训练模型在Minecraft中完成任务。

后来我们开发了第二个项目,叫做Voyager。这个项目灵感来源于GPT,当时GPT是最强大的编码模型,我们决定使用代码作为Agent的动作表现方式。我们将Minecraft的世界转换为文本表示,并通过API让Agent以代码形式与游戏世界互动。像人类开发者一样,Agent并不总是能够在第一次尝试时写出正确的代码,因此我们为它设计了一个自我反思的循环机制。

当Agent尝试某些操作时,如果出现错误或者在Minecraft世界中发生了意外,它会收到反馈并能纠正自己的程序。一旦Agent编写出正确的程序,我们就称其为“技能”,并将其保存到一个技能库中。这样,未来如果Agent再次遇到类似的情境,它不需要再经过试错过程,可以直接从技能库中调取技能。你可以把这个技能库看作是Agent自主回答问题并且不断积累的一个知识库,整个过程没有人类的干预。

技能库是我们的第二个机制,第三个机制是自动化课程。Agent能够知道它已经掌握了什么,未掌握的是什么。因此,它可以自动生成下一个既不太难也不太简单的任务,随着不断解决这些任务,Agent能够发现更多技能和工具,并在Minecraft的广阔世界中自由探索。由于它不断旅行和学习,我们将这个Agent称为“Voyager”(航行者)。这就是我们团队构建AI Agent在具身化虚拟世界中的初步尝试,利用基础模型和大语言模型进行训练。

Stephanie Zhan:我觉得这个非常有趣,因为这触及了推理领域中未解决的问题之一,即如何让模型能够具备自我意识,知道如何通过下一步改进自身。你能再多谈谈自动化课程设计的原理吗?

Jim Fan:我觉得前沿模型中非常有趣的一个特点就是它们可以反思自己的行为,并且似乎能够知道自己掌握了什么、未掌握了什么,并能够据此提出合适的任务。在Voyager项目的自动化课程中,我们给Agent设定了一个高层次的目标,那就是尽可能多地发现新的物品。我们只给了它这一个指令,没有给它任何关于应该首先发现哪些物品或解锁哪些工具的详细指导,而Agent能够通过自己的反思和课程生成机制,自行完成这些探索任务。

Stephanie Zhan:为什么你认为那么多关于虚拟世界的研究都集中在虚拟世界领域?我相信不仅仅是因为很多深度学习的研究者喜欢玩电子游戏,虽然这可能也有帮助。你如何看待虚拟世界研究与物理世界研究的联系?两者之间的相互作用是什么?

Jim Fan :虽然游戏和机器人技术看起来似乎是完全不同的领域,但实际上它们在很多原则上是相通的。两者都涉及到输入感知信息(可能是视频流或其他传感器输入),然后输出动作。在游戏中,动作可能是键盘和鼠标的控制;而在机器人技术中,动作则是低级别的运动控制。最终,API看起来非常相似。

这些动作都需要在世界中进行探索,并且都需要通过某种方式收集自己的数据。我们称之为强化学习和自我探索。这个原则同样适用于物理世界中的Agent和虚拟世界中的Agent。不同之处在于,机器人技术更为困难,因为你还需要跨越模拟与现实之间的差距。在模拟环境中,物理规则和渲染永远不会完全真实,因此将模拟中的学习转移到现实世界是一项未解决的研究难题。而在游戏中,训练和测试都发生在同一个环境中,因此没有这种“模拟到现实”的差距。

去年我提出了一个概念,叫做“Foundation Agent”,我认为最终我们会拥有一个模型,既可以在虚拟世界中工作,也可以在物理世界中工作。对于基础Agent来说,它可以在三个维度上实现通用化:第一个维度是它可以执行的技能,第二个维度是它可以控制的身体形态,第三个维度是它可以适应的世界,无论是虚拟世界还是现实世界。未来,我相信一个模型将能够掌握各种技能,适应各种机器人形态,并在虚拟世界和现实世界中通用。这就是GEAR团队追求的最终愿景。

Sonya Huang:在虚拟世界和游戏中,智能Agent的发展已经展现出一些推理和新兴的行为。你个人对这些可能性有什么梦想?你最希望看到AI Agent在哪些方面带来创新?

Jim Fan:我对两个方面感到非常兴奋。第一个是游戏中的智能Agent。如今的非玩家角色(NPC)都有固定的脚本,所有行为都是手工编写的。如果未来我们能有真正“活着”的NPC,它们能够与玩家互动,记住玩家以前告诉它们的事情,并在游戏世界中采取行动,改变游戏的叙事和故事线,那么每个玩家的游戏体验都会不同。甚至对于同一个玩家来说,每次玩游戏时,故事线都可能不同,这将为游戏带来无限的重玩价值。

第二个方面是游戏世界本身的生成。我们已经看到了很多工具在朝着这一方向发展,比如文本生成声音、文本生成视频模型,当然还有可以生成故事线的语言模型。如果我们能将这些所有的元素结合起来,那么游戏世界就可以根据玩家的操作进行动态生成。这将是一个真正开放的体验,玩家每次进入游戏都会遇到不同的世界和挑战。

Sonya Huang:对于这个Agent的愿景,你认为需要达到类似GPT-4的能力吗?还是说像LLaMA这样的模型就足够了?

Jim Fan:我认为这个Agent需要具备像GPT-4这样的强大能力。一方面,它需要能够进行有趣的对话,具备一致的性格,并且拥有长期记忆,还能够在游戏世界中采取行动。在这方面,LLaMA等模型虽然表现不错,但目前还不足以产生非常多样化和具有吸引力的行为。因此,我认为我们还存在一定差距,还需要进一步发展。此外,还有推理成本的问题。如果我们想要将这些Agent部署到玩家的设备中,要么需要非常低的云端推理成本,要么能够在本地设备上运行,否则从成本上来看是不可扩展的。

Stephanie Zhan:你认为虚拟世界中的研究成果是为了服务于物理世界的应用吗?或者说,这些虚拟世界本身就是研究的目的?

Jim Fan:我认为虚拟世界和物理世界最终只会是一个连续体上的不同现实。我举一个例子,有一种技术叫做“域随机化”(Domain Randomization)。它的工作原理是,在模拟环境中训练机器人,但在同时进行一万个不同的模拟,每个模拟中的物理参数略有不同,比如重力、摩擦、重量等因素都稍微有差异。因此,实际上我们训练的是一个能够应对一万个不同现实情况的Agent,而真实世界只是这些模拟的第10001个场景。在这种方式下,我们能够实现从模拟到现实的直接转移,而无需额外的微调。

Sonya Huang :这真是个了不起的概念!

Jim Fan:是的,这就是我们在Eureka项目中做的事情,我们使用领域随机化训练Agent,在不同的模拟环境中调整参数,然后实现零微调(zero-shot)将其转移到真实世界中。因此,我相信,如果我们能够掌握不同虚拟世界中的技能,最终现实世界将只是这个更大分布的一部分。

Sonya Huan:能详细讲讲Eureka的工作吗?让我们的观众更好地理解。

Jim Fan:在Eureka项目中,我们基于领域随机化的方法。我们仍然使用大语言模型来生成代码,LLM为模拟环境提供了不同的模拟参数,比如领域随机化的预设值。经过几轮训练后,我们在模拟环境中训练的策略可以很好地泛化到真实世界。一个具体的演示是,我们让一个机器狗在瑜伽球上行走,并保持平衡,甚至还能向前走。有趣的是,有人评论说,他们尝试让自己的真实狗做这项任务,但狗并不能做到这一点。因此,从某种意义上说,我们的神经网络在这个任务上超越了狗的表现。

Sonya Huang :这真是令人印象深刻,’超级狗’的表现确实值得称道。

Stephanie Zhan:在虚拟世界领域,有很多令人惊叹的模型问世,不论是在OpenAI还是在NVIDIA的阵营中,很多都是基于Transformer的架构。你认为我们现在已经达到了“这是能带我们走向未来的架构”的时刻了吗?还是说在模型方面还有一些根本性的突破尚未实现?

Jim Fan:是的,我认为对于机器人基础模型来说,我们还没有完全挖掘Transformer架构的潜力。目前的瓶颈是数据问题,正如我之前提到的,我们不能从互联网直接下载控制机器人的运动数据,而是需要通过模拟或真实机器人环境来收集这些数据。一旦我们建立起一个成熟的数据处理流程,我们就可以将这些高质量的动作数据输入到Transformer模型中,并让它进行压缩处理,就像Transformer在处理维基百科上的文本时预测下一个单词一样。

目前,我们仍在测试这些假设,但我认为我们还没有完全推到Transformer的极限。现在也有一些研究正在探索Transformer架构的替代方案,我对此非常感兴趣,比如记忆增强模型(Memory-Augmented Models)以及在测试时进行训练(Test-Time Training)的方法等。其中一些方法展现了非常有前景的理念,虽然它们还没有扩展到前沿模型的性能水平,但我非常期待看到这些替代方案的表现。

Sonya Huang :你对哪种替代架构最感兴趣?为什么?

Jim Fan :我提到的记忆增强模型和测试时训练的方法是我最感兴趣的。这些模型在推理时更加高效,而不是像Transformer一样需要在推理时处理所有过去的token。这些模型在推理时有内在的高效机制,因此我觉得它们非常有前途。当然,我们还需要将这些模型扩展到前沿模型的规模,看看它们与Transformer在性能上的直接对比。

快问快答

Stephanie Zhan:现在进入快问快答环节。问题一:除了具身化AI,你对AI领域的其他哪部分最感兴趣?

Jim Fan:我对视频生成非常感兴趣,因为我认为视频生成是某种形式的世界模拟。我们可以通过数据来学习物理规则和渲染技术。比如,OpenAI发布的DALL·E展示了令人印象深刻的图片生成能力,而现在也有许多新的模型在赶上DALL·E的步伐。所以这是一个正在不断发展的研究话题。

Stephanie Zhan :你觉得“世界模拟”能带来什么?

Jim Fan:我认为它能为我们提供用于模拟的数据,在这些仿真环境中,我们可以训练具身化的AI Agent,这将非常了不起。

Sonya Huang :在更长的时间跨度内,10年或更长时间,你对AI的发展最感兴趣的是什么?

Jim Fan :有几个方面让我非常兴奋。首先是推理方面,我对能够编写代码的模型充满期待。我认为编程是一项非常基础的推理任务,并且具有巨大的经济价值。也许10年后,我们将拥有能够编写代码的模型,它们的表现将与人类的软件工程师相当,甚至更好。通过这些模型,我们将能够极大加速软件开发进程。

第二个方面当然是机器人技术。我希望10年后,我们将拥有类人机器人,它们的可靠性和能力将与人类相当,甚至超越人类。我希望到那个时候,Project GEAR已经取得成功,我们能够让类人机器人帮助我们处理日常事务。我的梦想是机器人可以帮我洗衣服。

Stephanie Zhan:让机器人洗衣服?我也迫不及待了。

Jim Fan:是的,我希望这能尽快实现。

Stephanie Zhan:你在AI领域非常崇拜的人是谁?从实习生时期到现在,你曾与许多杰出的研究人员合作过。

Jim Fan:我崇拜的人太多了,数不胜数。首先,我非常崇拜我的博士导师Fei-Fei Li教授,她教会了我如何培养良好的研究品味。有时候,重要的不在于如何解决一个问题,而在于如何找到值得解决的问题。我认为找到值得解决的问题往往比解决问题本身更难。在我的博士期间,我从计算机视觉领域转向了具身化AI领域,现在回想起来,这是一个正确的方向。我相信AI Agent的未来无论是在机器人领域还是在虚拟世界中,都会是具身化的。

我还非常崇拜Andrej Karpathy,他不仅是一位伟大的教育者,还能写出如同诗歌般优雅的代码,我非常敬佩他。此外,我也非常尊敬Jensen Huang,我觉得他对AI研究充满热情,而且他对模型的技术细节了解得非常透彻,这令我印象深刻。因此,我非常敬佩他。

Sonya Huang:你提到了良好的研究品味。对于那些正在从事AI领域创业的创始人,你有什么建议,帮助他们找到值得解决的问题?

Jim Fan:我认为如今的研究论文变得越来越易于获取,而且它们往往包含了一些非常好的想法,并且越来越具有实用性,而不仅仅是理论上的机器学习。因此,我建议大家紧跟最新的文献动态,并尝试使用人们开发的开源工具。比如NVIDIA开发的模拟工具,任何人都可以访问。只需下载并尝试使用,你就可以在模拟环境中训练自己的机器人。

Sonya Huang:回到Jensen作为AI领域的标杆人物,你认为他对AI领域创业者的最大贡献是什么?他们能从中学到什么?

Jim Fan :我认为关键在于找到正确的问题。NVIDIA之所以押注类人机器人,是因为我们相信这是未来的方向。同样,我们之所以投身具身化AI,是因为我们相信,如果未来十年我们会有像iPhone一样多的智能机器人,那么我们最好从今天开始着手准备。

Stephanie Zhan:这真是一个结束的好方式。Jim,非常感谢你今天加入我们。我们非常期待看到你们团队的更多研究成果,特别是能让机器人帮我们折叠衣服的那一天。Stephanie Zhan:谢谢你!

Jim Fan:太棒了!非常感谢你们的邀请。

Stephanie Zhan:谢谢你!

原视频:Jim Fan on Nvidia’s Embodied AI Lab and Jensen Huang’s Prediction that All Robots will be Autonomous

https://youtu.be/yMGGpMyW_vw?si=m1H58Qc1Tt6OMjKZ

编译:Aileen

文章来自于微信公众号“ Z Potentials”,作者“ Sequoia Capital”

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...