Waymo自动驾驶单量超萝卜快跑，AI 如何更快落地自动驾驶？

2024-08-22 阅读 53 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

01 AI 接入自动驾驶，

真正的挑战是最后的 0.0001%

David：生成式人工智能带来了一些新的重大突破，有人觉得它是一项全新的技术，另一些人认为它是几十年技术积累的成果。把生成式 AI 跟传统的 AI 或机器学习技术相结合，来推动自动驾驶技术的发展，你有什么看法？

Dmitri：这个问题问到点上了，生成式 AI 的确覆盖了很广的领域。让我们先来回顾一下 AI 在自动驾驶技术发展过程中起到的作用，以及我们是如何将 AI 的突破性进展融入到我们的工作中的。

从自动驾驶技术的起步阶段，AI 就已经参与其中，早期的 AI 更多地依赖于传统的机器学习技术，比如决策树和基础的计算机视觉技术，包括定制化特征提取和核变换机制等。然而，AI 和计算机视觉领域的一个重要转折点出现在 2012 年左右，卷积神经网络开始大放光彩。

许多人对 AlexNet 和 ImageNet 竞赛都有所了解，AlexNet 在比赛中的获胜对我们在计算机视觉领域的应用产生了深远的影响。它不仅帮助我们处理摄像头捕获的数据，还能让我们使用卷积网络来理解周围环境，进行物体的检测与分类。这在 2012 年和 2013 年左右是一个巨大的飞跃。我们也尝试将这些技术应用到其他领域，虽然有些成果有趣但效果有限。

另一个里程碑级别的突破是 2017 年 Transformer 模型的出现，它对语言理解、语言模型构建、机器翻译等方面产生了巨大的影响。对我们来说，它让我们能够把机器学习和 AI 应用到更广泛的领域，而不局限于感知领域。想想 Transformer 对语言的影响，它们在理解、预测和生成词串方面真是高手。

比如，我们可以用 Transformer 理解和预测场景中其他参与者的行为，或者用它来规划我们自己的行动轨迹。在模拟中，生成式 AI 可以模拟世界中各种行为的演变过程，这些行为序列就像句子一样，有前后连贯性。物体的状态虽然有局部连续性，但场景的整体背景也真的很重要。这让我们在行为预测、决策制定和模拟方面看到一些真的令人激动的突破。

近年来，模型的规模越来越大，人们开始构建用于多任务的基础模型。尤其是最近，大语言模型、现代生成式 AI、视觉语言模型等领域都有重大突破，它们能把图像和语言理解结合起来。

Waymo 最近非常关注的就是，怎样把我们这些年来积累的 AI 技术，和这些视觉语言模型的通用知识结合起来。

David：我做个简单的陈述，可能有点极端。DARPA 的思路是基于规则的传统 AI 方法，先处理一大堆数据，把各种特殊情况都记下来，然后让模型学会怎么应对。但有些新冒头的公司，他们就喜欢从一开始就把 AI 用在所有决策上，全程包办，就像他们说的「端到端驾驶」。Waymo 是怎么用这些理念的？

Dmitri：有时这被看成是非此即彼的选择，但其实不是。它既是大模型，也是端到端模型，同时也包括生成式 AI 与 VLM（垂直限制模型）的结合。但问题是，这还不够，我们都清楚这些模型的局限性。这些年来 AI 领域有很多突破，比如超大规模计算、transformers、大型端到端基础模型等，它们对我们确实有很大帮助。Waymo 一直在推动这些最前沿的技术，并把它们应用到自动驾驶领域。我们学到的是，这些技术确实有用，但远远不够。

一开始，你可以轻松上手这些新技术，看起来进展顺利，但真正的挑战是解决那最后的 0.0001%，这时候它们就不够用了。你必须在这个基础上做更多。现在，你可以使用端到端模型，从传感器到轨迹规划，这个过程通常是分阶段进行的，而且可以通过整个流程进行反向传播。这个概念很有道理，可以结合 VLM，然后通过闭环仿真进行测试，甚至可以快速做出很棒的演示，几乎是现成的。你可以得到一个 ADAS（高级驾驶辅助系统）或至少是一个普通驾驶辅助系统，但这还不足以实现完全自动驾驶，这就是难点。

所以，问题不在于选择「这个或那个」，而在于选择了「这个」之后，还需要做些什么，才能有足够的信心去除驾驶员，实现真正的全自动驾驶？这是一项庞大的工程，它贯穿了整个模型和系统的生命周期。首先要考虑的是训练，怎么训练？模型怎么设计？怎么评估它们？当把它们集成到更大的系统中时，只有模型还不够，还需要做额外的工作。现代的生成式 AI 虽然很强大，但也有幻觉的问题。

David：还有可解释性问题。

Dmitri：对，这些模型在目标规划、决策制定和三维空间操作方面确实有点力不从心，所以我们要在它们的基础上再加把劲。刚才聊到了模拟器，这本身就是个烫手的问题。一旦系统投入使用，收集到反馈之后，怎么有效利用这些反馈信息，就非常关键。换句话说，这不仅仅是端到端模型那么简单，这是端到端模型加上大型基础模型，之后还要深度优化。

David：在 Waymo 会遇到很多复杂问题，但你们已经解决了一部分。现在你们面临的最大的 AI 或数据上的挑战是什么？

Dmitri：简单来说，我们的目标是将规模提升到新的水平，甚至是跨越多个数量级。随着规模的增长，我们也需要不断改进，来提供更优质的服务。现在，我们已经有了在各种条件下全天候驾驶的能力，无论是旧金山、菲尼克斯这样的成熟市场，还是洛杉矶、奥斯汀。我们能在复杂的城市环境和各种天气条件下运行，包括雾霾、暴风雨、沙尘暴或大雨等。

接下来，我们要考虑的是，怎样进一步提升客户体验。如果要实现数量级的增长，需要哪些改进？我们正在努力让服务变得更出色，比如提高接送点的质量，让从你打开应用程序到到达目的地的整个过程都更顺畅和愉快。这是我们目前投入大量精力在做的。

02 合成数据是模拟的关键，

先训练超大模型再瘦身

David：你们在模拟技术上有显著的进展，现在虽然有生成式 AI 在合成数据上的争议，但在自动驾驶的领域里，合成数据和模拟技术尤其重要。

能分享一下你们开发的模拟技术吗？它如何协助你们扩大视野，深化对现实世界的理解？这些年来，这项技术又经历了怎样的变化？

Dmitri：因为我们不能直接在现实世界中全面测试，所以模拟非常重要。评估自动驾驶系统的性能时，需要依赖大量的指标和数据集来确定它是否达到预期的标准。但因为新系统的行为可能与现实世界有差别，所以我们需要一个真实的闭环模拟环境。

模拟技术的另一个关键应用是处理合成数据，这让我们能深入分析那些罕见的事件。例如，如果你在现实世界中遇到了一个有意思的情况，你可以在模拟环境中改变条件，把这个单一事件变成成千上万种可能的变体。此外，有一些我们从来没见过的情况，甚至是我们丰富的经验也无法覆盖的，就需要训练系统来评估，这时候纯粹的合成模拟就显得尤为重要。

这种技术的核心在于确保模拟器的逼真程度。它需要在传感器和感知方面做到真实，同时也要模拟其他动态参与者的真实行为。如果模拟中行人的行走方式与现实不符，我们就需要能够量化模拟场景的真实性，确保它与现实世界中事件发生的频率相匹配。

在模拟器中创造极端情况可能看起来很大胆，但关键在于我们怎么处理这些情况。这就涉及到现实感的第三个关键要素：在宏观和统计层面上，模拟器必须尽可能地反映真实情况。要开发一个优秀的自动驾驶系统，我们需要一个高度真实的大规模模拟器，而且要不断迭代，来模拟真实的行人、自行车手和驾驶员。

David：通过这种模拟软件，你可以很好地模拟现实世界，创建场景中的变量，让驾驶员在模拟中得到成倍的道路经验。以实际行驶的英里数来计算，对吧？

Dmitri：完全正确。在现实世界，我们在全自动驾驶模式下行驶了超过 1500 万英里，而在模拟中，我们已经行驶了数百亿英里。

David：谈到自动驾驶的行驶里程大幅增加，目前在人工智能领域，大家都在聊 Scaling Law。在自动驾驶的层面上，Scaling Law 是看行驶里程，还是积累的经验，还是计算能力？

Dmitri：模型的规模真的很关键。我们发现，根据 Scaling Law，很多旧的模型其实训练得不够，更大规模的模型能处理更多的数据，这样在遇到各种情况时就能更好地应对。但是，这里说的数据，不是随便什么数据都行，而是高质量数据，那些在特别罕见的情况下也能表现不错的数据。不过，因为我们的模型要在车载系统里跑，就对算力有了限制。所以，我们更愿意先训练一个特别大的模型，然后再把它瘦身，变成一个更小的模型，而不是一开始就只训练一个小模型。

03 自动驾驶比真人开车更安全

David：接送乘客这个问题非常难解决。比如在城市里停车时，你可能会挡住车道，如果传感器检测到有人开了车库门，你就得挪开；或者在停车场里，找到合适的停车位置也不容易。

Dmitri：没错，我们得保证我们的车足够聪明，能妥善处理这些情况，不挡道，也不给别人添麻烦。这不光是技术上的问题，更关系到用户体验。我们得保证车辆能迅速察觉周围环境的变化，而且能做出合适的选择，比如在不影响别人的情况下迅速找到新的停车位。这些智能化的表现，对于赢得用户的信任和满意，特别关键。

David：你提到了 1500 万英里的自动驾驶里程，这数字可能已经更大了。真是挺惊人的。更厉害的是，这还让事故率降了 3.5 倍，比人类司机的事故率低很多。

Dmitri：受伤率下降了 3.5 倍，警方报告里的小事故大概减少了 2 倍。

David：这就涉及到监管和伦理的问题了。你们希望达到什么水平？当然，持续改进是目标，但有没有一个标准，让你们觉得「行了，做得够好了」，而且监管机构也能点头？

Dmitri：我们的目标是定一个特别高的安全标杆，要比现在的行业水平还高。我们不停地搜集数据，分析事故率，还要跟人类驾驶的统计数据对比。我们想用这些数据向监管机构证明，我们的自动驾驶技术不仅安全，而且在很多方面比人类开车还安全。

David：现在人们最关心的就是路上的安全。有数据证明，现在的自动驾驶车在运营的地方已经比人类司机做得好了，意味着撞车和受伤的情况都少了。

我们一直在发布最新数据，其中有一个基于约 400 万英里的数据的研究成果，自动驾驶的财产损失事故减少了 76%，人身伤害索赔则减少了 100%。

Dmitri：但有些碰撞是难免的。我们在红灯前停下，还是会有人撞上来。但我们也明白，这是一项新技术和新产品，因此需要更高的安全标准。当我们考虑安全性和准备工作时，不仅仅是看这些数据。多年来，我们在这方面投入了大量资源，积累了丰富的经验。那么，还需要做些什么呢？

我们已经做了许多不同的事，发布了一些方法论，分享了我们的准备框架，还模拟了一个专注且优秀的人类驾驶员模型，并且拿来跟我们的自动驾驶系统做了对比，确保它达到高标准。最后，通过综合使用这些方法，我们来判断系统是否足够成熟，是不是可以大规模推广。

04 早早下注自动驾驶，

Waymo 下一步是广泛合作

David：在斯坦福的时候你第一次参与了 DARPA 项目，能不能聊聊你当时的经历？怎么走上这条路的？

Dmitri：我第一次真正接触自动驾驶是在斯坦福做博士后的时候。那时候的 DARPA，也就是美国国防高级研究计划局，正在通过一系列竞赛来推动自动驾驶技术的发展。我参加的是 2007 年的 DARPA 城市挑战赛。

那次比赛在一座废弃的空军基地上，搭建了一个模拟的城市环境，让自动驾驶汽车和人类驾驶员一起完成各种任务。那是我第一次深入探索这个领域，对我来说，那是个启发性的时刻，让我对自动驾驶非常感兴趣。

David：2007 年那会儿你用哪些硬件和软件？

Dmitri：那时候的系统其实和我们现在使用的有很多相似之处。我们有一辆装备了各种测量设备的车，可以向它发出指令，接收反馈。车上配备了惯性测量单元、加速度计、陀螺仪和 GPS，还有雷达、激光雷达和摄像头，这些技术我们今天依然在使用。有一台计算机专门处理这些传感器的数据，然后指导汽车行驶，此外还有一系列软件，涵盖了感知、决策、规划以及人工智能的各个方面。

不过，从那时起到现在这 18 年间，一切都有了巨大的发展和变化。现在的人工智能技术与 2007 年相比已经大不相同，传感器和计算机技术也都经过了多次的迭代和升级。

David：你在斯坦福的时候决定将自动驾驶作为你的事业方向。之后你加入了丰田，接下来发生了什么？

Dmitri：我不确定当时的目标是不是已经那么明确。我只是深信这是未来，急不可待的想成为其中一部分。后来，在 DARPA 挑战赛里露头的几个人一起，联手启动了谷歌的自动驾驶项目。2009 年，在谷歌的 Larry Page 和 Sergey Brin 的支持下，又把这个项目推向了一个新的高度。直到 2016 年，这个项目正式发展成 Waymo，从那时起我们就一直走在这条路上。

David：现在的你对市场格局和竞争有什么看法？Waymo 在未来会扮演什么角色？

Dmitri：我们认为 Waymo 的核心任务是打造一个通用的自动驾驶系统，这是我们让交通变得更安全、更便捷的主要目标。我们现在主要聚焦在网约车服务上，这算是我们目前最拿手的领域。不过，我们希望将来 Waymo 的技术能扩展到其他商业领域，比如快递、卡车运输，甚至个人的车上。

我们的计划是尽快、尽可能安全地把这项技术推广开，所以我们也在探索各种各样的商业模式和合作方式。比如在凤凰城，我们和 Uber 有合作，不仅在 Uber 的网约车服务中用上了 Waymo，还在 Uber Eats 上推广。你可以通过 Waymo 或者 Uber 的 App 来体验我们的自动驾驶。

David：说到车辆硬件，Waymo 现在使用的传感器技术是什么？从 DARPA 开始，虽然传感器类型差不多，但进步肯定不小。你觉得 LiDAR 还是自动驾驶的未来吗？

Dmitri：传感器各有优势。摄像头能提供颜色和高分辨率的画面，LiDAR 能直接测出 3D 数据，雷达在穿透不同波长上特别强。我们还开发了成像雷达，能直接测速度，极端天气下表现也不错。

我们的策略是把各种传感器结合起来，这样系统就更可靠，能力也更强。现在我们已经用上第五代传感器了，第六代也在准备中。这些升级让我们的传感器更可靠，性能更好，成本还降下来了。对我们来说，多管齐下用各种传感器技术是合理的，特别是在全自动驾驶上，哪怕是那最后的 0.001% 也很重要。

David：在大语言模型领域，成本的降低成了热议话题，有人甚至说这已经开始商品化了。但自动驾驶这边情况却相反，竞争者少了，挑战也比想象中要大得多。你能说说是为什么吗？

Dmitri：自动驾驶一开始上手容易，但要真做到完全替代司机的全自动驾驶，难度就很大了。有几个原因：首先，跟数字世界里的大语言模型不一样，自动驾驶必须在复杂、充满不确定性的现实世界里跑，这就带来了巨大的挑战。

再有就是安全问题，在我们这行，犯错的代价太大了，几乎不能有差错，标准也非常严格。

还有，自动驾驶系统需要在实时环境里操作，车开得飞快，决策得在几毫秒内完成，这几个因素加起来，难度就上去了。虽然技术在进步，但没有捷径，想实现全自动驾驶，每个环节都得做到极致。

这是个长跑，但对我和 Waymo 的许多人来说，最激动人心、最让人满足的，就是看到这一切终于变成现实。我们现在有了大量的证据，证明我们在安全性上的确取得了实质性的进步。

David：回顾这一路，有哪些让你感到印象深刻的经历吗？

Dmitri：有一回，我们从北部的明尼苏达州出发，一路经过加州的 Palo Alto，翻过山，上了 1 号公路，顺着这条路一直开到旧金山，还兜了一圈，最后在伦巴底街结束这一程。那是 2009 年的事了，那时候路线还挺复杂的。

David：从头到尾有 100 英里吧？这段路人类司机都未必能完成。

Dmitri：是啊，那天我们开车进山区。天还很早，雾蒙蒙的。路上的东西不少，我们先是看到一个桶，然后是只鞋，最后竟然还有辆生锈的自行车。我们都懵了，心想这是什么情况？不过车处理得还算可以，虽然有点磕磕绊绊，但没出大问题。后来我们才发现，原来是前面有辆垃圾车，上面的东西一直往下掉，挡在了我们前面。

David：这简直像动画片一样，所有奇怪的东西都抛向你们。最后一个问题，基于你对创业的激情，有什么建议可以给充满激情的年轻人吗？

Dmitri：来 Waymo 吧。

David：这个问题回答起来太简单了。

Dmitri：是的，我们今天谈到的是 AI，这对世界来说很重要，也是一个对你来说很重要的问题，与它相关的挑战通常不简单。所以，不要被未知或别人的话吓倒。开始行动，然后继续前进，不要回头。

参考文章：

https://a16z.com/dmitri-dolgov-waymo-ai/

文章来自于微信公众号“Founder Park” 作者“Founder Park”

字节最吸金的海外AI应用：月活超3亿，一年狂揽1.25亿美元

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

Waymo自动驾驶单量超萝卜快跑，AI 如何更快落地自动驾驶？

01

AI 接入自动驾驶，

真正的挑战是最后的 0.0001%

02

合成数据是模拟的关键，

先训练超大模型再瘦身

03

自动驾驶比真人开车更安全

04

早早下注自动驾驶，

Waymo 下一步是广泛合作

字节最吸金的海外AI应用：月活超3亿，一年狂揽1.25亿美元

AgentMarket，一款来自清华的 AI 社交游戏

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

Waymo自动驾驶单量超萝卜快跑，AI 如何更快落地自动驾驶？

01

AI 接入自动驾驶，

真正的挑战是最后的 0.0001%

02

合成数据是模拟的关键，

先训练超大模型再瘦身

03

自动驾驶比真人开车更安全

04

早早下注自动驾驶，

Waymo 下一步是广泛合作

字节最吸金的海外AI应用：月活超3亿，一年狂揽1.25亿美元

AgentMarket，一款来自清华的 AI 社交游戏

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿