不久前,我们与逐际动力创始人张巍探讨了人形机器人下肢移动能力的进展。机器人上肢的精准操作能力,也是实现机器人更广泛应用的关键所在。这一次,我们继续聚焦具身智能领域的前沿进展,与中国科学院自动化所的研究员连文昭一起,围绕人形机器人上肢的精细操作能力与产业落地等话题来展开深入讨论。
连文昭2011年本科毕业于上海交通大学电子系,2015年在美国杜克大学获得统计学硕士学位与电子与计算机工程博士学位。毕业后,连文昭接连在顶尖的科技公司任职,他所做的工作都跟机器人相关,包括在硅谷科技界大佬争相投资的AI公司Vicarious 从事研究工作,在 Google X 参与机器人研发。回国前,他在炙手可热的机器人公司 Figure AI 担任技术总监,负责机器人灵巧操作相关的软硬件结合部分以及主要算法的研发工作。2023年他决定逆流回国,在国内探索具身智能的科技驱动产业落地。
基于连文昭的独特经历与视角,丰叔和他聊到了:
- 机器人行业发展的历史长什么样?
- 人形机器人的上肢精细操作能力目前处于什么阶段,面临哪些技术挑战?
- 中美两国在机器人产业方面有哪些不同的优势和挑战?
- 近年来,哪些技术进步扩展了机器人的应用场景?
- 在上肢协调性和灵巧手的操作控制方面,模仿学习和强化学习如何发挥作用?
- 机器人行业发展的“不可能三角”怎么破?
- 如何看待人形机器人的未来?
想象还是泡沫:大模型给机器人带来了什么?
李丰:你博士毕业以后,职业发展这若干年都跟机器人行业有关系。想请你从新闻之外的角度分享一下你所观察到的美国机器人产业的变化。
连文昭:我会把时间线拉长一些。确实,最近两年美国的机器人行业发展非常迅速。但实际上,机器人的实际应用已经有五六十年的历史。最初,它们主要 被用于汽车制造和 3C 电子领域 ,因为这些行业的产量巨大,ABB、库卡等公司率先推动了工业机械臂的开发和应用。不过,在当时,这些机器人都是 重复编程 和 重复运动 的,没有任何智能。
李丰:我补充一点历史故事。首先,大约在1940年代中后期, 自动化理论和最早的计算机技术 同时诞生了,它们的起源地主要在美国。这个时间很特殊,因为二战刚刚结束。不过,尽管相关科技起源于美国,但是由于随后几十年不同国家的条件差异,最终导致了上一代机器人在欧洲、日本而非美国获得发展。
这背后有一个有意思的历史过程。
美国在两次世界大战中都获得了发展,因为没有主要的本土战争,美国在战时帮助世界各国制造武器物资。二战后,美国的情况和战败国或其他参战国不同,首先它没有大量的劳动力损失,其次由于不再需要大规模生产军事设备,市场需求骤减, 解决就业问题是当务之急 。外加机器人非常昂贵,尽管美国有发展机器人的技术优势, 实际使用的场景非常有限 。
同一时期,日本和德国因为在战争中遭受了巨大的人员损失,尤其是青壮年劳动力。战后, 他们急需恢复生产和发展消费,迫切需要引进替代劳动力的生产工具 。最初,他们从美国购买昂贵的原型机器人,然后把机器人广泛用到电子和汽车产业,这两个产业后来成为了战后日本和德国实现经济恢复的主要产业。日本和德国也陆续诞生和成长出当时在全球领先的机器人企业,也就是我们常听到的机器人“四大家族”(瑞士的ABB、德国的KUKA、日本的FANUC和安川)。
连文昭:这段历史非常有意义,对现在也有很大的启示。从供给侧和需求侧来看,现在世界各国,包括美国、日本、欧洲,尤其是中国,发展机器人的条件都已经比较成熟。
回到之前的问题, 最早一代的机器人更像是自动化的机器,没有智能 。随着技术的发展,我们有了模式识别,模式识别的出现使得机器人可以做一些简单的智能操作,比如线条的跟踪和物体边缘的检测,这就使机器人具有一定的视觉能力,可以进行视觉引导的运动,比如可以用起来的 AGV (自动引导车)小车,机械臂也可以做一些柔性的操作。逐渐地,机器人的应用场景开始被缓慢放大。
随着应用场景的扩展,硬件成本逐渐降低,生产量开始增加,硬件和软件的交替迭代也在推动技术进步 。近 20 年来,3D 视觉技术的发展解锁了更多的机器人应用场景,使其能够检测物体的姿态、把物体分割出来,并进行无序抓取等操作。软硬件交替发展推动了机器人行业不断螺旋上升。后来,我们看到AGV开始进入家庭;谷歌在 2016 年开源了SLAM(同步定位和地图构建)技术,更多公司进入该领域,将硬件和更先进的软件结合,拓展出更多应用场景。 现在,机器人不仅可以To B为企业提供服务,也可以用在用户家里。 近几年就更有意思了。大模型爆发了,不过还没能在机器人领域真正很好的落地。
李丰:所以从你的意思来看,目前大模型虽然为人形机器人带来了想象和泡沫,但它们暂时还没有真正连起来?
连文昭:大模型目前还没有达到那个阶段。就像3D 视觉、2D 视觉和模式识别在其他领域已经证明是非常可靠和有用的。当这些技术被应用到机器人领域时,它们可以增强机器人的能力。 然而,大模型在其他领域还没有证明自己是一个可靠的、能显著提高生产力的工具。
它们可以辅助人类,但还没有达到独立完成任务的水平。举一个直观的例子,用 OpenAI 的 ChatGPT 聊天或创作,如果我们没有预设的标准答案,它可以很好地激发我们的想象力。但如果我们有一个具体的要求,比如希望它生成一幅画,然后这幅画在我们头脑里是非常清晰具体的,那么 ChatGPT 可能需要多次尝试,甚至试到最后我们可能会放弃。
李丰:明白。在内部讨论大模型时,我经常用三四五岁的小朋友来比喻。如果你有一个问题,在你没有预设的答案的时候,小朋友可能会给你出乎预料的答案,让人觉得既可爱又好玩。但如果你在寻求一个充满逻辑和理性,或者说收敛的答案,那么小朋友可能就不容易达到预期。大模型也一样,你需要引导和不断加强问题的收敛。
连文昭:我完全同意这一点。 在机器人行业中,与物理世界的交互通常是有正确的答案。 比如拿起一个杯子,是否有成功拿起来并倒水,水是否倒到了我想要的 3/4 杯?这些都是有标准答案的。
李丰:你怎么会在描述例子时可以精确地提到“3/4 杯”?
连文昭:有些情况下我们需要定量的描述。虽然人们在大部分时间里对事物的感知是模糊的,比如走到一个地方的前后左右。但是在特定情境下,我们需要精确的度量,而误差的大小很大程度上取决于当时的语境。我们管这个叫常识或直觉物理。 大模型目前并不具备这种能力,它们的精确度取决于训练数据的精度。 但人类就可以调整这种精确度。
李丰:“直觉物理”是一个非常有趣的概念,一会儿我们还会仔细讨论。这个概念的理论基础来自哪里?
连文昭:在麻省理工学院有一位教授约书亚·特南鲍姆(Josh Tenenbaum),他是研究认知科学的,他很早就开始基于上一波通用人工智能(AGI)来做研究。他倾向于使用小数据,或者基于概率的方法,从人脑中获取灵感。我当时在Vicarious工作时,也是希望 从人脑中获取灵感来设计神经网络 ,让它们不过分依赖于大数据和纯统计方法。我从那儿受到了很多影响,做了许多探索。
李丰:我还有一个好奇的问题,你如何看待这些美国公司今天的变化。你的专业背景挺好的,当时有这种背景的人大多都去了彼时最热门的互联网大厂,它们看起来希望无穷,待遇也高,你是怎么决定去从事机器人行业的?当时就知道十年后机器人会很热吗?
连文昭:我希望我有这种超能力。很多事情其实是很随机的,但当时我的确是这么想的。那时候还没有大模型, 机器学习领域最火的概念是“大数据” 。毕业时,确实有很多师兄师姐去像LinkedIn、Facebook、Google 这样的公司。但我认为在这些大型互联网公司,每个人能做的事情其实有限。我更看重我能在一个行业或技术上做出一些改变。
在读博的最后两年,我和一位从事机器人和机器学习研究的老师合作过。那时候没有大模型,我们基于模型做一些强化学习,做的也只是简单的抓取和放置任务。虽然现在看来这些工作很简单、很基础,但给了我很大的启发。
当时,我觉得 机器人行业充满了机遇 ,就像从 3 千米高空俯瞰地面一样,遍地是黄金。但凡能做出一点智能的东西,就能极大地推动机器人领域的发展。
因此,我的决策点主要是基于这样的想法,我希望尝试一些新事物,这些事情的斜率足够大,我能带来一些改变。后来机器人行业变得如此热门,是我没有预料到的。我的另外一个逻辑是,人类的最终理想是好吃懒惰、长生不老。赌这两个领域肯定没有问题的, 所以做人工智能,做机器人肯定没错 。
Vicarious, Google X, Figure:不同的基因、愿景和尝试
Vicarious选择了比DeepMind更难的路
李丰:你待过的几个公司Vicarious、Google X、Figure,他们各自的背景不同,你加入时他们所处的阶段也不同,在你看来,在做机器人这件事上,他们各自的基因和阶段给他们带来了什么样的影响?
连文昭:每个公司或组织虽然做类似的事情,但出发点完全不同。按时间顺序来说,Vicarious公司的目标不仅仅是做机器人,我们希望实现的是通用人工智能。大家可能会问,有什么能证明它达到了通用人工智能呢?所以我们设计了类似图灵测试的智商测试,如果能在智商测试中达到 140 或 160 的分数,那就证明了通用人工智能的存在。
李丰:如果你的测试结果只有140分,而你希望它能达到 160 分,那岂不是要制造一个比自己还聪明的机器人?
连文昭:这是必然的。机器人能接触到的信息肯定比我们多,它们具有自我迭代的能力也肯定比我们强。我们应该有这种包容心态,希望看到我们的孩子比我们更聪明。
我们当时在Vicarious并不希望仅仅制造一个人工设计出来的产品,我们更希望通过有机的验证来证明我们已经达到了通用智能。像DeepMind采取的策略是打游戏、下围棋、下象棋,这些在后来看来更容易取得成功,因为它们是在数字世界中进行的,数据是无限的。他们可以利用大量历史数据来学习如何玩游戏,甚至自己模拟游戏过程。
李丰:我们在之前和张巍老师的谈话中也稍微涉及了一点,就是所谓的数字世界。游戏、围棋、象棋这些完全数字化的闭环流程,它的好处在于,机器学习人类做过的事情,比如围棋棋谱、象棋棋谱以及打游戏的视频或控制过程,因为这些流程是 100% 数字化的,机器可以自我仿真,可以左手打右手。AlphaGo在八年前就展示了这一点,它可以自己和自己下棋,24 小时不间断地模拟所有可能,最后战胜人类棋手。
连文昭:这里有多个因素。首先,数字世界中数据产生的成本非常低,机器可以自我对弈,利用云计算资源并行运行许多虚拟机。其次,数字世界可以将所有空间、观测量、动作空间都离散化,在数字世界中,理论上是可以穷举所有可能性的。
但是在物理世界,所有变量都是连续的。我们学电子专业的人都知道数电模电,模拟电路是更具挑战性的。有些数电可以自动化、AI化,模电则更依赖于人的经验,这是机器难以替代的。在机器人和物理世界的实际操作交互中,相关的数据很难穷举,或者说即使想这样做,所需的成本和代价也是巨大的。我们在Vicarious公司选择了这条道路,最终也证明这是一条比数字世界更为艰难的道路。
Google X通过收购整合,确定了三个主要方向:move、make 和 help
李丰:那么你到 Google X 的时候,Google X 的主要做法、思路和基因是什么样的?
连文昭:Google X 更像是一个大公司Google 下的研究部门。2013 年,安迪·罗宾(Andy Rubin),也就是 Android 的创始人,他对机器人非常感兴趣,在他的主导下,谷歌一举收购了 8 家机器人公司。经过一段震荡期,最终他们确定了三个主要方向:move、make 和 help。move 指的是移动性,比如物流叉车;make 是工业制造,也就是我后来参与的项目,公开名称为 Intrinsic;第三个是 help,即服务型机器人,也就是后来大家所知的 everyday Robot 项目。谷歌的策略是先收购很多公司,然后整合出几个方向。
具体到Intrinsic这个项目,我们是希望打造一个通用的机器人操作系统。在工业领域的机器人“四大家族”,每家都有自己的硬件和相对封闭的操作系统。这些机器人厂商起源于自动化公司,软件几十年都不太更新,一旦部署,通常不会改变,因为它们最看重的是鲁棒性。这也限制了机器人在更多场景中的应用。
Intrinsic项目的目标是解锁机器人的能力,让机器人不仅仅在“笼子”里可以用,在更多的制造场景中也可以使用。现在我们经常谈论柔性生产,小批量、大批次、高混低量的生产场景,就要求我们能有Software defined hardware,软件定义硬件,这是Google X的初衷。
谷歌知道自己的长处在于软件,所以他们希望打造一个通用的机器人操作系统,它是Hardware Agnostic的,希望对所有硬件都适用。软件工程师可以坐在办公室里编程、学习。学习完成后,我们有自己的一套仿真框架,可以在仿真系统中验证机器人是否能完成组装或其他有价值的体力劳动。验证完后,我们可以把它部署到真实场景中,将硬件的开发流程抽象出来,让越来越多的工作可以通过软件完成,实现可重复性和规模化。这是Google X 的逻辑,它的整个计划非常宏大。
我认为只有大公司才能做到这一点。在美国,可能只有谷歌和少数几家公司能做到,国内也是如此。对于更小的创业公司来说,这难度很大,因为周期很长。
一方面是技术上能否实现软件对物理层的抽象,从电机层甚至电流命令开始,逐步抽象到最顶层,编写软件框架进行数据传输或控制。
另一方面是推动到整个产业链是很复杂的。工业生产包括第一、第二产业甚至一部分第三产业,整个链条是既定的。传统的链条中,离用户最近的是系统集成商,他们扮演很重要的角色,负责从多个上游供应商来采购组件,然后自己加一些软件,甚至自己定义一些硬件,然后集成到客户项目中。在工厂侧,还有IT部门或生产部门负责对接,确保一切运转顺畅。这个链条里有很多环节,有很多中间层来分享利益。
如果我们有一个新的框架或系统想要进入这个链条,相当于要和现有的参与者分蛋糕,我们必须证明我们能提供更大的价值,能扩大整个市场的蛋糕。从商业落地的角度来看,这也是一个相对缓慢的过程,需要大量的前期投入,但我相信这最终会实现,至于需要多长时间,则要看产业的惯性。
如果当下的技术进展提早实现,Google X和Vicarious会有什么不同?
李丰:回顾你在 Google X 做Make这部分的机器人,以及之前在 Vicarious想用机器人来证明上一轮的AGI,两者都面临着各自的挑战和目标。今天回过头来看,假如当前的大模型、Transformer 算法等软硬件技术在当时已经有了,Vicarious的机器人或 Google X 的 Intrinsic 项目会有所不同吗?
连文昭:这是一个特别难的问题,我们可以做一个思想实验。其实在很多科幻作品中,我们往往会改变一个因素,但其实其他因素也会发生变化。例如,我们可能会看到 2050 年的家庭中有机器人在跑了,但那位父亲仍然在早晨看报纸。只改变一个要素,未必能做很准确、客观的推测。
李丰:当然。
连文昭:如果我们假设 Vicarious在当时就拥有了现在的视觉大模型技术,那么在物体检测和分割方面的工作会简单得多。我们不需要大量的数据标注和训练,技术落地会简单很多。当时,我们需要为每个新的第三方物流任务训练新的模型,这需要大量的人力和资源。
对于有些物体,直接部署未调试的模型可能只能达到70%的效果,不调整到 99% 的精确度就无法交付。这意味着我们需要投入大量的博士生和工程师到现场进行调试,这在成本上是非常巨大的,商业上也难以成立,因为我们几乎将一个产品变成了定制化的项目。但是现在我们拥有基于视觉的大模型,在部署这部分工作时,就能节省大量的成本。
然而,硬件方面并没有一个one for all的解决方案,不同的物体需要不同的末端夹具。让机器人抓取一把雨伞和抓取一个手机,所需要的“手”是不一样的。目前还没有一个通用的硬件可以适应所有场景。因此,自定义硬件可能是未来的一个发展方向。
李丰:自定义硬件是指机器人在识别物体后,自行更换适合抓取该物体的末端夹具吗?还是说,在识别物体后,调整机械控制原件内部的控制逻辑,比如灵敏度、精确度和力度?简单说就是,是换手还是换控制方式?
连文昭:实际上,两者都是必要的。在硬件层面,过往我们一直面临着选择:是制造一个瑞士军刀式的多工具集合,还是一个可以使用各种工具的手。这是一个困境。使用瑞士军刀式的解决方案相对简单,我们可以罗列出每个场景适合的工具,然后针对性地来做选择,但它的成本难以控制。而用后者,听起来只要把手做好就可以拟合各种各样的场景,但这对算法和控制层面的要求更高。
如果我们的算法足够强大,可以实现通用人工智能,那么设计同一个硬件就可以操作各种工具,这是理想的状态。但这个难度相对较大。
李丰:如果你现在要创业解决这个问题,你会选择哪种方式?是选择像换手一样更换不同的工具,还是选择让手有多个不同的手指头,比如螺丝刀、开瓶器、钻头等?
连文昭:仰望星空的话,我们一定要做手。之所以叫人形机器人,我们的目标是制造并使用工具,那就一定要做出很通用、能泛化的手来操作各种工具。虽然短期内这个目标难度很大,但我们仍然朝着这个方向努力。目前,我们看到的五指手可能有六个关节,现在大家在努力做更多的关节,但是当下要在多物体、多接触的环境中去灵活地控制这么多自由度,结果还不太理想。
李丰:如果不考虑触觉或感官问题,只关注于如何控制灵巧手,哪些因素最难达成妥协?例如,增加关节数量可能会导致现有的控制系统跟不上,或者提高关节的灵敏度后,关节的受力和弯曲自由度会受限。
连文昭:硬件、软件以及交互等方面都有难题。首先,从纯硬件角度来看,一个巨大的挑战是如何在有限的空间内集成多个自由度。例如,在人形机器人中可能需要 30 来个电机,而在手上我们希望能集成 10 个以上的自由度,这在技术上是非常困难的,因为我们希望手部不仅能实现精细的操作,还要有足够的力量,而不是仅仅只能拿起一个纸杯,尽管拿一个纸杯也已经很难了。
但是,要在现有的电机体积限制下实现这些想法,是一个硬件上的挑战。我相信,随着时间的推移,这个问题会逐渐得到解决。目前的现状是,尽管我们可能已经有 6 个自由度的类人型手,但它能实现的功能甚至比我们之前的两指夹爪还要弱。
两指夹爪的操作是一个简单的夹取动作,它像一双更好的筷子,很好控制而且鲁棒性强。但当现在我们尝试控制更多自由度的手时,它们之间需要协同,如果没有有效的算法,我们相当于把它弱化成一双筷子,且是更差一些的筷子。
而在软件层面,我们需要考虑如何实时规划和调整关节命令。在进行大范围运动时,例如机械臂、轮子或轮足,我们不会做高频率的决策。但是,人类的手和物体交互时,大脑可以并不怎么参与,许多动作是反射性的。例如,一旦感觉到烫,手自然就会缩回,然后人才感觉到烫。或者在拧瓶盖时,当我们感觉到紧,手自然就会减少用力或减慢速度。这些都是本地的决策。目前的算法还难以实现这种即时反应。
第三点是软件和硬件的交互问题,这是一个鸡和蛋的问题。我在 Figure的时候,一边做手,一边开发算法,就像在飞一个还没做好的飞机,一边飞,一边修,一边设计怎么调整它的转向和速度。这个过程是相当痛苦的,但我相信一旦完成这个过程,它的价值将是巨大的。
Figure AI的愿景没怎么变,变的是人们对它的看法
李丰:既然说到 Figure,从外界看来,公司从默默无闻到今年一朝成名,在这个过程中你有感受到公司明显的变化或质的飞跃吗?
连文昭:我认为 Figure本身的整体策略是相对持续和一致的。从公司成立之初到现在,它的愿景并没有太大变化。变化更多的是外界对这个领域和这家公司的看法。
Figure成立之初就有很强的硬件基因。CEO布雷特・阿德科克(Brett Adcock)之前创立了一家垂直起降飞机公司 Archer Aviation,并成功上市。他对机械和电气非常敏感,也充满兴趣。所以,Figure早期从波士顿动力、特斯拉、苹果等公司吸引了许多驱动系统和电机方面的一流专家,有些Figure的同事参与过波士顿动力早期的 Atlas 人形机器人、Spot 狗以及 Stretch 物流机器人的开发,他们在硬件创新方面拥有丰富的经验。但在开发硬件本体的同时,Figure也下决心把 AI 技术融入其中,以区别于历史上已有的成果。因此,Figure的核心是以硬件本体为基础,逐步整合 AI 能力、感知能力和学习能力,慢慢成长。
但是Figure始终是一个商业公司,所以我们希望找到短期内可以落地的场景,比如物流和工厂。随着社会和资本对这个行业的关注越来越多,更多的资源开始涌入。许多战略合作方,如 OpenAI、微软、谷歌,以及芯片制造商、云计算公司和大模型开发者,都开始和Figure合作,将他们的技术能力和我们本地的机器人本体结合起来,放大它的价值。
李丰:Figure最近一年多时间里接受了很多知名人士和机构的投资。随着大模型的发展,以及最近这一轮引人注目的融资新闻,你离开之后,Figure现在的进展和发展和以前有明显的不同吗?
连文昭:我离开的时间没有很长,同事之间仍然经常交流。在能披露的范围内,我认为有了资源后,Figure能做的事情肯定更多。
机器人的研发在美国成本极高,虽然不像制造芯片那样昂贵,但硬件的每一次迭代都需要大量的时间和资金投入。我们做过许多实验和开发,软件开发的实验即使出错也没有关系,但硬件的实验成本相当高。所以,当这些资源到位后,迭代速度能大幅提升。在大模型和算力方面也是一样,Figure有更多的资源去收集数据并迭代,这种加速是非常明显的。
李丰:那 Figure最近发布的机器人 demo,和以前相比,你觉得它发生了很惊人的变化吗?
连文昭:我必须说整个demo非常棒。Figure每隔几周都会做一个状态更新,来客观地反映公司的进展。最近的demo结合了大模型、中层模仿学习和底层的整体控制,展示了整个框架设计可以实现非常柔性的任务。我也注意到评论里经常提到动作的丝滑,这是因为我们将上层、中层、底层不同频率要求、不同带宽要求和不同计算量的任务整合到一个框架中,并定义好它们的接口,使它们衔接好。这不是一件简单的事情,所以Figure的进展是扎实的,我们做了很多工作。
李丰:从你的角度来看,在过去的10个月或一年里,Figure的发展超出你的预期了吗?
连文昭:客观地说,从技术发展的角度来看,实现这样复杂度的任务是符合预期的,也是可以预见的。从融资的角度来看,肯定是超出预期的,因为大家对Figure的认知和兴趣发生了很大变化。
李丰:如果在你考虑回国的时候,正好发生了这轮大额融资,你还会辞职吗?
连文昭:这个答案比较简单,肯定会。我认为人不会因为做出了某个选择而感到后悔,而是因为没有做出某个选择而感到遗憾。当我作出回国的决定时,我已经考虑过最坏的可能性。我更在意的是,如果事情做得好,会是什么样子,以及我在其中能扮演什么角色,我的参与与否会带来什么不同。
以Figure为例,湾区人才密度很高,公司拥有了丰富的资源后,自然能够吸引更多人才,我离开了,公司也会继续发展,而且发展得很不错。但回国后,我可以做更有影响力的事情。
人形机器人领域虽然现在看似火热,但如果放在历史的长河中看,目前仍处于早期阶段。许多技术路线、商业场景、成熟度乃至于在社会中的角色都还没有收敛。它其实还是一个很早的胚胎期的事情,未来的路还很长,沿途有许多节点可以选择,我相信每一个节点的选择都会引导不同的人走向不同的发展路径。
我希望可以依靠自己过往的积累、经验和认知决策,在机器人领域走出一条特别的路。我更倾向于探索一个自己能够掌握方向,引导项目在一个未知的领域中逐步前行。就像在玩《魔兽世界》的时候,当你面对一张全黑的地图,你只能看到眼前的一小部分,但在这种未知和黑暗中寻找光明的过程,本身就充满了意义。
中美机器人行业比较:新的创业机会在哪里?
李丰:回国后的这段时间里,你觉得从软件、硬件、算法模型、控制等各个维度来看,中国和美国的机器人行业横向比较起来是个什么状况?
连文昭:中国和美国的机器人行业在基因上就不一样。毫无疑问,中国的硬件制造能力非常强大。无论是生产速度还是成本控制,中国都具有明显的优势。
我们机器人行业很容易放大这个优势。机器人目前仍处于一个早期发展阶段,需要大量的研发和迭代工作。如果我能够每两周或每月进行一次迭代,相比于每六个月或每年一次迭代,进步的速度自然要快得多。这与OpenAI训练大型模型的情况类似,他们使用数百或数千块显卡进行训练,而我们可能只使用几十块,这种速度上的差异是巨大的。
但在人才积累方面,我们必须承认有一定的差距。美国在机械、电子、控制、算法等领域拥有更多的人才储备。这些人才不仅包括有实际操作经验、从事过自动化设备和传统机器人项目的工程师,还包括来自模仿学习和强化学习等新兴领域的人才。
在国内,当我们发现某个行业有需求时,往往才开始有人逐渐进入该领域。比如有些人是从自动驾驶行业转过来,也有人是从新能源领域转型来的,这些人才在进入新领域时可能会遇到一些困难。但我相信很快我们的人才储备会显著提升。毕竟中国在工程师和科学家方面拥有人口红利。至少在人才数量上,我们具有明显的优势。
此外,在政府层面,中国能给予的支持是非常大的。这一点在新能源汽车领域已经得到了证明。政府的补贴和鼓励对于推动行业发展至关重要,没有政府在早期的激励,这个事很难起来。
而在美国,这种情况不太可能发生,起码目前看在人形机器人行业不会发生。美国更倾向于市场激励——工厂的工人越来越贵,是否能够用机器人来替代时薪17美元的工人。这种逻辑对机器人技术的要求更高,在机器人应用的推动上也会相对较慢。
在国内,如果政府推动人形机器人发展,将会非常快。目前人形机器人之所以发展得不够好,主要有两个问题:一是成本过高,二是能力不强。我们目前讨论的是如何实现规模化法则(scaling law),即数据量越大,机器人的能力就越强。但数据从何而来?只有当机器人被广泛使用时,我们才能积累足够的数据。这就形成了一个循环:没有数据就没有能力,没有能力就无法降低成本,成本不下来就无法推广使用。但如果我们能有外部力量介入,比如政府补贴,使得产量能够提升,那么成本就会下降。成本降低后,我们就可以大规模推广使用,从而积累更多的数据,进而提升机器人的能力,进一步增加其使用量。这是我们国内的一个巨大优势。
美国的优势在于技术前沿的研究上,无论是大模型、底层控制技术,还是在硬件设计方面,他们确实比我们领先。必须承认,在从0到1的原创性创新上,美国仍然处于领先地位。现在技术上很难说哪一种技术会最终胜出,因为技术没有收敛,无论是模仿学习、仿真学习还是强化学习,各种方法都在尝试之中。
李丰:确实是这样。结合你对中美两边的经验和了解,以及当前的行业发展状况,如果你今天在中国选择一个方向进行创业,你认为哪些领域的机会更大?或者说,最容易形成突破与优势的点有哪些?
连文昭:一个宽泛而简单的答案可以概括为“科技驱动,产业落地”。人形机器人目前本质上还是一个由技术推动的领域。我们需要解决许多技术问题,整个系统的复杂性涉及传感器、硬件、算法以及各种模块,甚至是软件层面的挑战。因此,这是一个技术驱动型的领域,如果你的技术能够取得绝对领先,那么你将能够保持较长时间的竞争优势。这是一个关键前提。
另一个方面,说到落地,无论人形机器人的技术如何发展,最终它都需要创造价值。如何创造价值取决于你能不能尽早找到一个技术与市场需求之间的匹配点,即“技术市场契合度”(Tech market fit)。这一点至关重要,越快找到这个契合点越好。
确实美国有很好的技术优势,但是中国有庞大的产业链和市场需求,比如新能源和物流领域,在世界上除中国外几乎没有第二个国家可以完全承接。如果我们能有一些有效的技术解决方案,就能推动这些产业的升级和发展。
做好机器人的上肢,到底难在哪?
李丰:接下来我们讨论一些具体的问题。上次和张巍老师聊天时,我们开玩笑说他是研究机器人下肢的专家。你过往主要关注的是机器人的上肢,尤其是手脑协调、灵巧手和末端执行操作等方面。如果从整体上来看人形机器人,简单地将其分为上肢和下肢,下肢的行动已经有了一些积极的动态和进展。那么,今天上肢的进展水平如何?
连文昭:上下肢的这种区分我是赞同的。对于上肢,尤其是手部的操作,情况要复杂得多。手部必须与环境进行交互,需要将物体从一个初始状态转移到另一个状态,这需要进行强接触。我们甚至需要主动探索这些接触,而不是将它们视为干扰。因此,对于手部而言,我们不仅需要关注物体的几何特性,还需要关注它们的语义特性,例如这些物体是什么,它们的用途是什么。这就涉及到了所谓的语义意义(semantic meaning)或可供性(affordance),需要进行更深层次的语义理解。这就涉及到了我们之前讨论的常识和直觉物理,涉及到对语言层面的理解,这是更有挑战的一件事。
李丰:比如桌上有一个圆形物体,我们需要判断它是个装饰品还是个装食物的盘子。
连文昭:对,更直观的例子是我们吃完饭,剩了不少东西,我们到底是把它倒掉还是用保鲜膜包起来放入冰箱。这种判断需要对物体的语义有深入的理解。
李丰:现在提倡节约,那肯定是要包起来放冰箱。所以目前机器人的上肢,尤其是手部的操作,还存在许多具体的挑战和问题。我认为这里可以分为两个问题。第一个问题是,就像你刚才提到的,人体通过反射弧来调整平衡,那么在上肢,尤其是双臂或多臂协调方面,我们如何能同时使用两个胳膊并实现即时的平衡?
连文昭:如果我们将上肢的一部分问题拆解出来,比如移动、避障,这基本上可以等同于控制下肢,我们希望用最小的力保持稳定或走得更快。如果只考虑上肢的空间移动能力,那么问题的本质是相同的。举个例子,通过一个有电的迷宫,我们需要拿起一个环而不触碰到电流。类似这样的任务可以被抽象化,与控制下肢的原则类似,即让机器人的控制非常精确,避免触碰到障碍物,至于两个臂如何协调工作,这个问题是可以解决的。但在未知环境中,情况就更加复杂,这就需要类似于大脑和小脑的协调工作。
李丰:举个例子,机器人需要一边摇动试管,一边倒入特定量的试剂,而且不能洒出来,同时还要确保这一动作不影响试管的摇动。
连文昭:如果环境固定,比如摇瓶子,这种任务相对简单,因为它相当于重复运动。如果是复杂的情况,比如要求机器人进行实时状态评估,并同步调整双臂的协调动作,那么机器人需要明确目标位置,即便目标不明确,它也需要预估下一个目标位置。这实际上是更难的。类比到下肢,预测下一时刻脚要搁到哪并实现平衡,和明确知道脚要搁到哪把它搁好,这两个事情还是有差别的。
李丰:那么目前双手协调的水平如何?我们希望解决但尚未解决的问题是什么?
连文昭:丰叔现在开始问到学术前沿了。双臂协同操作,是近年来学术界重新开始关注的问题。在工业机械臂的应用中,很少涉及到在位置环境的双臂协调。例如在汽车制造中,虽然可能会有多个机械臂同时工作,它们的轨迹也是离线规划的固定轨迹,而不是在线实时调整的。
在未知环境中实现多臂协调仍然是一个学术挑战。因为上肢的动作空间非常大,需要实时状态估计,并进行多个自由度的协调。
李丰:再举个具体的问题,如何将长颈鹿放入冰箱,这个过程可以分为四步:打开冰箱门,将大象取出,放入长颈鹿,然后关闭冰箱门。这样的配合过程理论上是可行的吗?
连文昭:这种高层次的任务拆解,目前的大型模型做得还不错。网络上有很多这类数据的例子,例如,通常会有教程指导如何完成某项任务,或者一些说明书会详细列出操作的每一步,比如“如何打开手机包装盒”,“如何修理电脑”。因此,大型模型在任务拆解方面的表现相对可以,更困难的是如何实际实现每一个步骤。
李丰:回到产业层面,我们先不考虑双臂协作的问题,目前单臂的控制和自由度、灵敏度等方面是否已经取得了一定的进展?
连文昭:这需要看标准是什么。对于单臂操作,如果环境是半限定的,问题会相对容易解决。但在动态环境中,目前据我了解还没有真正落地的实时运动规划和复杂场景。分拣包裹应该是最具挑战性且能做到的场景之一。
李丰:那么在未来两年内,我们是否有可能在更大的动态空间中实现大臂和小臂的操作?
连文昭:以Google X为例,我们曾为合作伙伴研发家具拼接机器人,机器人需要视觉估计各个部件的状态,比如柜子的各个面板,椅子的各个部分,像椅背、扶手、轮子,并实时规划如何抓取和组装。我去抓把手,还不能挡住拧螺丝的地方。这涉及到很多中层到底层的决策,因此非常难。
李丰:所以你刚才提到的拼椅子项目并不是按照说明书做的,而是机器人自己动态估计并操作的?
连文昭:当我们实现这个功能时,大模型还没有出现,所以我们是有说明书的,步骤是已知的。当时更大的挑战在于如何实现各个步骤,因为家具部件体积大,负载高,对精确度的要求也很高,比如要把螺丝和螺母对齐,这是非常具有挑战性的。
李丰:明白了。那么,现在机器人的手部技术进展到了什么程度?
连文昭:目前,手的技术路径也还没有完全收敛,好在共识正在形成——开发一个多指灵巧的手,而不仅仅是简单的两指夹爪。
两指夹爪在工业界使用得很多了,但它实际上更像个吸盘,因为它的决策很简单,就是一个点,在三维空间中可能是两个或三个点,这取决于你的约束条件。一旦它增加到两个指头,就至少增加了一个甚至多个旋转角度,问题就变得更加复杂。如果控制到五指,那么操作空间就更大了,考虑到还需要实时进行调整,这是目前算法上比较困难的。
目前,一方面算法没有完全跟上,一方面没有很好的手。比如 Shadow Robot,他们很早就开发了一个具有 20 个自由度的手,这种手很大,主要是科研院所和学校研究单位在用。通常他们会至少买两个这样的手,一个手在实验室用着,另一个可能在寄往Shadow 或寄回的过程中,因为坏了。毕竟一旦把复杂度提高,可靠性必然会下降。所以目前大家都还处于探索阶段,还没有到达关注其可靠性的阶段,而是希望先把它做出来。
机器人领域的“不可能三角”
李丰:对于手的设计,如果考虑到便捷性、能耗控制、复杂度、可能出现的任务情况以及与人的互动等因素,你认为机器人最终应该有多少只手,以及每只手上应该有多少个指头是合理的?
连文昭:这是一个非常好的问题。理论上来说,先不考虑功耗,手越多越好,因为有时候两只手确实不够用,可能会需要第三只手的帮助。但是实际上,两只手通常可以覆盖90%甚至99%以上的使用场景,可能已经足够了。当然,我们可以增加更多的手,至于是否有必要还需要进一步探讨。
在目前的技术和应用场景中,比如在工厂、物流和服务领域,尤其是我们经常讨论的养老服务,两只手通常可以满足需求。
至于手指的数量,四个手指可能在很多情况下已经足够使用,因为我们其实在现实生活中很少用小指。
比如拼家具,我们当时就只用夹爪和吸盘。我们也曾经跟另外一个公司合作过做电视的检测。电视生产的过程本身已经非常自动化,但最后需要几个人把HDMI线、电源线、 USB线插到电池后面去,再做一些检测,看看有没有死点、颜色是否对。尽管这个对精度要求较高,节奏也是比较快的,且我们希望实现一定程度的泛化性,当时我们用的也只是两指夹爪。
如果我们需要处理几十个或上百个线头的时候,两指夹爪就不够了,需要往上加手指头。既然加,不如直接多加一点,有了多个手指也许还可以操作个电动螺丝刀之类的,如果有必要的话。
李丰:听起来现阶段上肢确实要比下肢难一点。上次张巍老师有讲到,在大模型的帮助下,强化学习对下肢运动可以起到很大的作用。就像小孩学走路,走得好了,可以从爸爸妈妈那拿个棒棒糖,没走好摔倒了也能长个记性。那么在上肢的训练方面,目前有没有一些技术上的突破?尤其是在精细操作和协调配合方面,是否有新的算法或模型可以帮助我们更好地训练机器人的上肢?
连文昭:在算法方面,我们确实取得了一些可喜的进展。您刚才提到的例子挺好的,孩子学习走路时可能会摔倒,但最后还是会逐渐学会,这是通过强化学习实现的。
上肢的操作可能是混着的,一部分是强化学习,更多的是模仿学习。越是复杂的任务,通过强化学习或者说试错的方式来练习,学习进度就会慢一些。
某种程度上,越是非基础的任务,也就是越往场景走,越往应用走,越往具体的事情走,模仿学习占的比重就越大。说实话,在这些情况下,我们往往没有时间、精力或耐心去通过试错和强化来慢慢学习。有时,作为家长,我们会忍不住就教他们,去展示具体怎么做。小孩的模仿能力极强,他们可以从家长、朋友的试教中来汲取信息,他们有一种共情的能力,当他们看到第三方怎么做,就会映射到自己,思考自己怎么控制胳膊和手来完成一件事。
所以说,强化学习更适合一些基础能力,例如如何从A点到B点,走得既稳又好,功率低且安全。这些基础能力,也可以叫“反射弧能力”,强化学习是一个很好的方法。但是,一旦想要执行具体任务,处理环境的未知性、语义层面的未知性,模仿学习可能是更适合的策略。
李丰:那么,模仿学习在今天的实践中有面临哪些挑战和问题吗?
连文昭:这是一个非常好的问题。在当前的成本限制、软硬件水平下,机器人很难同时实现三个目标。第一是成功率或者说可靠性,我们是否能够达到99%甚至更多9的可靠性。第二是速度,我们希望机器人能够快速完成任务,希望它能像人一样快,甚至比人更快。第三是泛化性,我们希望机器人能够处理多种任务,而不是为每个任务重新编程或设计新的工具。
李丰:这就像是机器人领域的“不可能三角”。
连文昭:对。套用到模仿学习领域,我们来仔细品一下斯坦福炒虾机器人的例子。
李丰:不是品这个虾?
连文昭:炒虾成功率的标准是相对宽松的,因为虾其实生吃也可以。但如果我们要求更高的成功率和精确度,就需要更多的数据和更复杂的模型。
不过,在这方面,我们也看到了一些积极的成果。我们曾让机器人通过模仿学习来把一个1号电池插到电池夹子里。电池夹子通常比较紧,有弹簧,空间也很狭小。我们让人演示如何压下弹簧,然后稍微拧一拧、扭一扭,最终把电池塞到夹子里。
即使是这样繁琐、精细和复杂的动作,机器人也能通过人的视角学会,并把学到的策略泛化到其他不同形状、颜色和大小的电池上。这说明在保证一定可靠性的同时,我们也能实现一定程度的泛化性。因此,我相信模仿学习这个路线还有不少更新的果子可以摘,天花板也还很高。
李丰:回到最早我们提到的一个问题,人的这种直觉物理或基础规则会影响模仿学习的结果吗?
连文昭:肯定是会的。一个直观的例子,当我们讨论一斤棉花和一斤铁谁重,直觉上我们可能会认为铁更重,尽管这是错误的答案,但它其实也是对的。如果我们在路上走,棉花和铁都掉落,我们必须选一个被砸中,我们肯定更愿意选棉花。
这种例子在机器人领域也很常见。在复杂的多物体环境中,机器人需要决定它的手或机械臂应该往哪里移动,需要探索哪些物体是可以容忍接触的。这是非常细微但日常会用到的知识。在模仿学习中,如何将这些知识教给机器人尤为重要。
我们经常讨论机器人如何能够在完全开放的环境中与老人接触或者陪护儿童。执行这些任务不仅需要理解几何意义,还需要理解语义层面的信息。只有达到这种通用性,有了常识,机器人才能真正在未知环境中进行有效交互。
李丰:听下来,如果从商业角度来看,发展上肢的协调性和灵巧手的操作控制是目前比较有意义的事情。同时,考虑到不可能三角,我们应该利用模仿学习在控制端实现更好的控制,但最好在一个不是完全开放,也就是说在半封闭或全封闭的场景中,进行有一定通用性的操作。
我们投了一个骨科机器人公司,它主要干的像是木工的活儿。当人的腿被固定之后,剩下的问题是,它需要先开一个洞,以某一个角度敲掉需要换下来的骨骼,再按某一个角度把人工骨骼给装上去弄结实。这基本属于完全封闭的环境,因为腿是不能动的,腿一动就敲错地方了。
连文昭:这是一个非常好的总结。在不可能三角中,如果我们从实际应用的角度出发,想要实现一些成果,我们必须看看在三角形的哪个顶点上可以做出一些妥协。
例如,在某些情况下,速度可能不是一个关键要求,我们可以接受机器人在一个空间里工作 24 小时,只要完成任务即可,不关心速度。与这个对应的一个反例就是物流。Vicarious 曾经在物流领域做过高速分拣和装箱,我们面临的挑战是每小时需要完成 1200 次操作,每 3 秒就要完成一次,没有时间让大型模型去训练或预测各种情况。
另一个顶点是可靠性。有些场景出错的代价很高,例如自动驾驶就是极端不允许出错的。我们也可以去找到一些对机器人相对友好或者说出错代价不高的场景,比如在倒水时,多倒一点或少倒一点并无大碍。
第三个顶点是泛化性,这是最灵活且友好的标准。就像丰叔说的,它是一个可控或半可控的范围。比如让机器人在工厂的一个固定工位上砸钉子,这个任务就极端可控,也有很多极端不可控的场景和任务。我们可以在中间找到一个适合且舒适的地带,正好适合我们现在的模仿学习方法,来实现需求的泛化性。
例如,空调压缩机有不同型号和大小,是否可以泛化处理?另外,它们所在的位置或环境,是否可以泛化?还有许多类似的维度可以实现泛化,我们通常可以找到适配的方法。
李丰:这挺有意思,它让我想起了过去几年的自动驾驶技术。算法虽然很厉害,但一直难以落地。经过无数次尝试和失败,大家逐渐意识到,短期内好实现的自动驾驶应用场景主要集中在港区、矿区和园区这类半封闭或全封闭的环境中。港区、矿区往往人少,且路线固定、交通规则明确,园区也是类似,不同点是人多,但人大多在人行道上。自动泊车也是一个场景,在大部分车不动的情况下,它来规划个路线,把车停到空着可用的车位上。
连文昭:这个类比特别好。确实自动驾驶技术在最初的时候,大家都希望做出租车自动驾驶,哪儿都能用。但随着时间的推移,大家发现这非常困难。现在,技术发展其实很快,我们也看到了自动驾驶的逐渐普及,比如特斯拉的 V12和 Waymo 在旧金山和湾区的尝试。这些进展表明,自动驾驶技术正在逐步走向成熟。
不过,对于从事这个行业的研究人员和从业人员来说,一个挺大的挑战是,需要不断地做出选择和调整,因为技术的更新换代速度非常快,面对可见的进展,需要仔细去研究去品,判断其是否真的能达到所承诺的效果。如果你相信现有的数据和算力还远未触及这些技术的天花板,那么可以预见,技术将会快速提升。
这是前所未有的机遇
李丰:人形机器人领域的热度上升,对你个人有没有什么影响,除了会接触到更多的投资人和行业人士之外,还有其他变化吗?
连文昭:对于我们这些从事技术研发的人来说,这是一个非常好的时间。前所未有,不知道以后还会不会有。
李丰:肯定会有,这种重大的事情,就跟我们刚讲的自动驾驶一样,一定会有好多轮泡沫起来、下去。在这种螺旋式发展的过程中,它的持续性会得到增加,技术上的进展会加速,应用范围也会得到扩张。
连文昭:这次确实是看到这个很好的时机,所以下决心从湾区回来做一些事情。我认为机器人和AI领域不太是科学问题,更是一个工程性的问题。既然是工程性问题,我们肯定希望能够离应用越近越好,并在真实世界中产生价值,提高生产力,提升人们的生活水平。
这些关键点如果能够实现闭环,对技术发展将是最明确的指引信号。我们需要不断地调整技术,以满足这些需求。因此,我更希望能够更接近产业界,实现技术的落地,正如之前提到的 “科技驱动,产业落地”,只有真正落地,我们才能抽象出更好的科学问题,通过工程问题来推动技术发展。我个人也希望在这方面能够实现具有实际社会意义的价值。
人形机器人的前景展望
李丰:今天开始聊天的时候,我们插了一段机器人的历史和发展。如果我们把当前人形机器人所处的阶段类比为 60 或 70 年前第一代工业机器人的起点,你往未来看 10 到 20 年,全球人形机器人或智能机器人行业的格局将会变成什么样?
连文昭:我甚至想把这个问题扩展一下,不只是在各个国家维度,我们还是希望去星际空间,比如火星等其他星球。我们当然不希望派数百万人去火星上构建环境,而是派人形机器人去。这对全人类来说都是极具价值的事情。
因此,无论是哪个国家,在这个时代,不考虑战争或其他因素的话,人形机器人技术的发展对于人类跨越地球,探索其他星球甚至星际空间都是极其有价值的。
如果从这个角度回到具体问题,中国是否应该发展机器人技术?美国是否应该发展?显然,现在两者都在发展,因为生产力在进步。
人类本质上是希望好吃懒做,向往长生不老。想要实现这些目标,除了发展机器人行业,我们还需要发展可控核聚变、星际运输和航天技术等等,我们需要无尽的能源和生产力去做生产和服务。这些领域的发展是必然的趋势。从需求侧来看,这一点已经非常明确。
那么,从供给侧来看,我们的技术是否能跟上,这是对我们从业人员的一个要求。作为这个领域的研究者,我觉得非常荣幸和幸运能够在这个时代参与到这些事情中,做一些实际且有意义的事情。
李丰:最后代表我个人提个问题,比如我很喜欢打羽毛球,每周都会打 8 个小时。假设我想要一个专业级的羽毛球机器人陪练,不是在固定位置收发球,而是要有自己的策略和技术,既可以陪我打球,但又不至于让我筋疲力尽。你认为我们需要多长时间才能做出这样的机器人?
连文昭:其实从技术角度讲,我非常乐观。Google X以前做过一个打乒乓球的机器人项目,它并不是一个人形机器人,而是用导轨和机械臂,通过视觉来追踪球,并使用强化学习算法不断更新策略。这个机器人的实际水平相当不错,可以达到陪练水准。
当然,打羽毛球确实要求更高,涉及更多的动作和更快的决策,包括策略层面的要求也更高。但从目前的技术栈来看,并没有明显的瓶颈,没有所谓的Rocket Science“火箭科学”那样无法解决的问题,我认为机器人完全有能力完成这项任务。
李丰:作为我们留给观众的一个悬念问题,也是一个开放性的问题:如果你开始尝试产业化,你会选择哪个方向作为你智能机器人产业化尝试的第一步?
连文昭:我来给一个开放性的答案。根据我们之前讨论的不可能三角,我认为我们应该在保证可靠性的前提下,优先提高机器人的通用性和泛化性,速度我觉得可以牺牲一点。
同时,我希望选择那些对柔性和适应性要求较高的场景。我举个反例,打螺丝或敲钉子就属于速度快、低柔性、强可靠性的。我希望用我在模仿学习领域的专长,去切入那些因为亟需柔性、尚未未解锁的应用场景。
李丰:非常感谢你今天的分享。现在我们对人形机器人的上肢有了更多的了解,结合上次张巍老师介绍的机器人下肢的进展,我们相当于把机器人连起来了。我们已经投资了一些专注于智能机器人领域的公司,包括之前提到的做无序分拣的机器人公司Covariant、做灵巧手的因时机器人,以及在芯片层面做六维力传感器的公司。未来我们也期待有机会和这些公司一起,分享他们在各自专业方向上的进展。
本文来自微信公众号“峰瑞资本”(ID:freesvc),作者:李丰 连文昭
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则