专访27岁亿万富翁Alexandr Wang: Scale AI如何仅仅为AI行业提供数据标注服务,做到年化收入接近10亿

Scale AI早早踩对了风口,如今终于一飞冲天了,公司的2024年年化收入预计达到近10亿美元。

Alexandr Wang是Scale AI的创始人兼CEO,他的故事堪称硅谷传奇:2016年,年仅19岁的他从麻省理工学院(MIT)辍学,创立了Scale AI。2022年,Alexandr Wang成为全球最年轻的白手起家的亿万富翁。如今,27岁的他继续掌舵着这家增长最快的AI公司之一,为整个行业带来了深远的影响。

Scale AI自创立之初就准确把握了AI数据处理的关键。从自动驾驶到大型语言模型,该公司迅速崛起,成为AI数据领域的佼佼者。它不仅解决了AI训练中的数据难题,更以其前沿的数据生产技术和评估体系,为AI技术的信任与广泛应用奠定了坚实基础。

如今,Scale AI已成为生成式AI和推动大型语言模型进步所需数据的代名词。公司的客户群体涵盖企业、汽车行业以及公共部门,得到了OpenAI、Meta、Microsoft等科技巨头的青睐与合作。此外,Wang还在构建关键基础设施,使各组织能够利用专有数据打造定制化的生成式AI应用,进一步推动了AI技术的普及和创新。

专访27岁亿万富翁Alexandr Wang: Scale AI如何仅仅为AI行业提供数据标注服务,做到年化收入接近10亿

文稿整理

主持人 David George: 让我们开始吧!我们今天非常高兴邀请到Scale AI的创始人兼CEO,Alex Wang。感谢你加入我们。

嘉宾Alexandr Wang: 感谢你们的邀请,我每次和你们聊天都收获颇丰。

David George: 很高兴你能来。或许我们可以从头开始,请你简单介绍一下你在Scale AI的工作,然后我们深入探讨一下。

Alexandr Wang: 好的。在Scale AI,我们正在打造AI的数据铸造厂。简单来说,AI的发展可以归结为三个支柱:计算、数据和算法。我们所见的所有进步,都是由这三个支柱推动的。计算方面的进步由像Nvidia这样的公司推动,算法的进步则由OpenAI等大型实验室引领,而数据的进步则由Scale AI推动。因此,我们的目标是与所有大型实验室合作,提供推动前沿AI发展的数据,并帮助每个企业和政府利用他们自己的专有数据,推动他们的AI开发。

高质量数据获取

David George: 关于前沿数据这个话题,实际上你们是如何获取这些数据的呢?

Alexandr Wang:  我认为这将成为我们这个时代伟大的项目之一。如果你仔细想想,世界上唯一我们可以用来模拟这种智能的模型就是人类。因此,前沿数据的生产看起来就像是人类专家与技术和算法技术之间的合作,来生产大量这样的数据。实际上,迄今为止,互联网也是这样的一个协作——是人与机器共同生产了大量内容和数据的过程。未来,这一过程可能会变得更像“互联网的加强版”,它不再仅仅是一个人类娱乐设备,而是一个大型的数据生成实验。

David George: 你对这个行业有独特的视角,你会如何描述目前语言模型的发展状态呢?我想了解一下市场结构等方面,但首先,我们想了解一下整个行业的现状。

Alexandr Wang: 我认为我们目前正接近语言模型开发的“第二阶段”末尾。第一阶段是早期的纯研究阶段,特征标志包括最初的Transformer论文,以及早期对GPT模型的实验,从那个时期到GPT-3的问世。第二阶段从GPT-3开始到现在,是初步的规模化阶段。我们看到了GPT-3的卓越表现,然后OpenAI开始将这些模型规模化,推出了GPT-4和其他后续版本。此外,谷歌、Anthropic、Meta、XAI等许多公司也开始竞相扩大这些模型的规模。在过去的三到四年里,这一阶段更多地是关于执行力的问题,涉及如何在大规模上进行训练,确保代码中没有奇怪的错误,以及如何设置更大的计算集群。这是很多执行层面的工作,确保我们现在能够拥有这些先进的模型。

然后,我认为我们正进入一个阶段,研究的重要性将开始更加突出。我认为各大实验室在选择探索的研究方向上会出现更多的分化,而且不同的研究方向会在不同的时间取得突破。因此,这将是一个在“原始执行力”和“创新驱动”之间交替进行的激动人心的阶段。

David George: 他们已经达到了这样一个阶段,我不会说计算资源是“充裕的”,但他们确实有足够的计算资源来实现现有的模型,这不再是一个限制。他们已经尽可能地用完了所有的数据,各大实验室都是如此。接下来,突破的将是数据方面,继续推进在数据方面的工作。这种说法合理吗?

Alexandr Wang: 是的,我认为确实如此。如果你看看这三个支柱,计算方面我们显然仍在继续扩大训练集群的规模,方向非常明确。在算法方面,坦率地说,确实需要很多创新,许多实验室都在努力进行相关的研究。而在数据方面,正如你提到的,我们已经用尽了所有容易获取和可用的数据。大家已经用尽了所有公共数据资源,比如常见的爬虫技术,大家都可以获得相同的数据。所以,很多人都在谈论“数据墙”,我们似乎达到了这个数据壁垒,已经充分利用了所有公开的数据。

接下来,这个阶段的一个重要特征将是数据生产。每个实验室将如何生成所需的数据,以达到下一个智能水平?我们如何实现数据的充裕?这将需要许多领域的高级研究和工作。我认为首先要推动的是数据的复杂性,朝着前沿数据方向迈进。我们想在模型中构建的许多能力,最大的阻碍实际上是数据的缺乏。例如,过去两年中,“智能代理”一直是个热门词汇,但目前几乎没有任何代理真正有效。事实上,互联网中并不存在大量优质的智能代理数据。所以我们必须想办法生成高质量的数据。

David George: 能举个例子说明一下,生成这些数据的过程吗?

Alexandr Wang: 其实我们马上会发布一项研究,展示目前所有的前沿模型在组合使用工具方面都非常糟糕。例如,当它们需要先使用一个工具,然后使用另一个工具时,比如查询信息后,再编写一段Python代码,再用这个工具生成图表,前后使用多个工具时,模型表现得非常糟糕。而这对人类来说其实是很自然的,但这些过程并没有被捕捉下来。

David George: 你的意思是说,我们无法记录一个人从一个窗口切换到另一个应用,然后将其输入模型进行学习,对吗?

Alexandr Wang: 对,正是这样。所以在解决复杂问题时,人类会自然地使用多种工具,进行思考,推理接下来需要做什么,遇到错误和失败时,会重新思考并调整。类似这样的“推理链”和“代理链”的数据现在根本不存在。所以这是一个需要生产的数据类型。退一步讲,首先需要增加数据的复杂性,朝着前沿数据迈进。其次是数据的充裕,要增加数据的生产,更多地捕捉人类在实际工作中的行为,不仅要捕捉人类行为,还要投资于合成数据和混合数据等方面,利用合成数据并让人类参与其中,以生成更高质量的数据。

就像我们谈论芯片时,讨论如何确保有足够的生产能力一样,数据方面也是如此。我们需要数据工厂,能够生成大量数据来推动这些模型的训练。最后一个常常被低估的方面是对模型的测量,确保我们真正了解模型的性能和进展。过去的做法是,我们会不断添加更多数据,然后看看模型的表现如何,再继续添加数据,然后再看模型的表现。但是,我们将不得不以更科学的方式去了解模型目前还不具备哪些能力,因此需要加入哪些特定类型的数据来提高模型的性能。

David George: 那么大科技公司在数据资源方面相较于独立实验室,优势有多大?

Alexandr Wang 嗯,在利用现有数据方面,大公司确实面临许多监管问题。我们可以看看在生成式AI之前的一些例子,比如Meta有一次做研究,使用了所有的公共Instagram照片和标签来训练一个非常好的图像识别算法。然而,他们在欧洲遇到了很多监管问题,这变得相当麻烦。因此,从监管的角度来看,尤其是在欧洲,科技公司能够在多大程度上利用他们的数据优势是一个尚待观察的问题。

我认为真正使得大型实验室拥有巨大优势的地方在于,它们有非常盈利的业务,可以为这些AI项目提供几乎无限的资金支持。这一点我一直在密切关注,我很好奇接下来会发生什么。整个行业现在的一个大问题是,他们是否在过度投资。如果你听大科技公司的财报电话会议,他们会说,最大的风险是没有投入足够的资源。

不能错过AI机遇

David George: 他们说,如果真的抓住了AI这个机遇,可能会为公司增加一万亿美元的市值,这简直是不言而喻的。而如果他们不多投入每年200到300亿美元的资本支出,错过了这个机遇,对他们来说就会有真正的生存风险。

Alexandr Wang: 对,正如你所说,每家大公司都可能因为AI技术而面临颠覆。所以对他们来说,风险与回报非常明显。再说得更具体一点,我认为他们都能够通过让核心业务更高效,轻松地收回他们的资本投资。比如说,Facebook和Google在广告方面的GPU利用率,如果他们让广告系统的效率提高一点,就可以收回数十亿美元的投资。

如果他们的广告系统性能更好,确实能带来很大的收益。苹果公司也可以通过推动设备升级周期轻松收回投资。这些都是相当明确的。总的来说,对整个行业来说,他们如此大量的资本投资是非常好的,因为他们也在出租计算资源,至少在Google和Microsoft的情况下是这样的。这些模型也在不断普及,比如说,Llama 3.1是开源的。因此,即便是这些投资的直接成果也在变得越来越容易获取。开源模型所带来的“盈余”实在是令人难以置信。

David George: 这就引出了关于模型层面市场结构的一个很好的话题。你认为未来会如何发展呢?现在我们看到的这些主要参与者会继续相互竞争吗?你认为这是一项有利可图的业务吗?开源对这些业务质量有什么影响?请你谈谈几年后的预测。

Alexandr Wang: 是的,在过去的一年半时间里,模型推理的价格已经大幅下降,甚至达到数量级的变化。让人震惊的是,智能似乎可能会成为一种商品化的东西。然而,我认为这种在纯模型层面上缺乏定价权力的情况,表明单独出租模型未必是长期最佳的商业模式。我认为,这很可能会成为一种相对平庸的长期业务。

David George: :我猜这还是取决于早期的突破,对吧?取决于是否有人实现了持久的突破,或者是否有多人实现了这样的突破,这会对市场结构产生影响。

Alexandr Wang: 是的,如果Meta继续开源,这将对模型层面能获得的价值设定一个非常明确的上限。另外,如果至少有一些实验室能够随着时间推移实现类似的性能,这也会极大地改变定价的模式。因此,我们认为,虽然不是百分之百确定,但模型租赁业务很可能不是最优质的业务。更高质量的业务将会出现在模型的上下游。

那么在模型的“下游”来说,Nvidia显然是个非常成功的企业,但云服务商也有非常好的业务,因为实际上要建立大型的GPU集群是非常困难的,从物流上来说。所以,云服务提供商在出租计算资源时确实有很好的利润,而且传统数据中心业务在这个领域也是占据了优势。因此,他们相较于小型企业有很大的优势。

正如你所说,如果你是在模型之下的层面上运营业务,比如Nvidia这样的企业,确实是一个非常好的生意。而如果你是在模型之上的层面,构建应用程序,比如ChatGPT就是一个很好的例子,很多初创公司的应用程序在这一领域表现得相当不错。虽然没有哪个应用程序能与ChatGPT的规模相提并论,但很多应用程序如果在早期找到了产品市场契合点,最终也会成为相当不错的企业,因为它们为客户创造的价值,如果整个用户体验做得正确的话,远远超过了模型推理的成本。

增长性AI应用

David George: 这很有趣,我觉得Anthropic推出的Claude与产品集成是一个非常有代表性的例子。这可能是我们将会看到的一个重大趋势,所有的实验室都将深度融入产品整合,以打造更高质量的业务。我觉得这将是另一个有趣的故事,我们会在产品层面看到大量的迭代和创新。枯燥的聊天机器人并不会是最终的产品形式,那将不是AI的终极成果。

Alexandr Wang: 完全同意,产品的迭代和创新周期是非常难以预测的。即便是OpenAI自己也没想到ChatGPT会如此成功。坦率地说,产业内任何人都很难预见哪些产品会成为下一个推动增长的关键点。然而,我相信,像OpenAI和Anthropic这样的公司有能力构建出优秀的应用业务,使它们在长期内保持独立和可持续。

David George: 是的,这确实是关键所在。竞争优势来自于什么呢?显然,紧密集成的模型和产品是一方面,然后就是那些老式的护城河,比如工作流程、集成等等。我想,我们已经可以看到他们的思路了。实际上,OpenAI和Anthropic几乎在同一时间都聘请了首席产品官,他们显然已经意识到了这一点。

Alexandr Wang: 是的,你可以看到这种转变。他们一开始可能说自己非常专注于模型,但现在已经开始意识到需要关注产品了。这完全合理。

David George: 你们也在构建一些非常有趣的应用业务,与你们合作的企业客户正在如何运用这些技术呢?

Alexandr Wang: 我认为我们看到的是,最初企业对AI非常兴奋,很多企业都意识到自己必须要采取行动,必须在AI方面领先一步,于是他们开始快速尝试各种AI的用例。这导致了一波快速的概念验证周期,他们尝试了所有能够想到的低垂果实型AI应用。

其中有些尝试是有效的,有些则效果不佳,但无论如何,这引发了一场巨大的热潮。不过,我认为实际进入生产阶段的项目要比整个行业预期的少得多。很多企业现在也在重新审视,之前担心的AI“大变革”并没有真正发生,AI并没有完全颠覆和改造大多数主要行业。更多的是一些边缘性的变化,比如在客户支持方面的效率提升,以及一些创造性任务的改进。

我们一直在思考的一个问题是,哪些AI改进或努力实际上可以显著推动客户公司的股价增长?我们也鼓励我们的客户认真思考这个问题。因为从长远来看,AI的潜力是存在的,几乎每一家企业都有可能通过实施AI来实现显著的股价提升,主要是通过降低成本和提升效率。

David George: 是的,至少目前大部分是在成本节省方面。

Alexandr Wang: 是的,目前确实如此,但同时也有更好的客户体验。我认为在很多与客户有更多手动交互的行业,如果能够实现更高的标准化并利用更多的自动化,就能提供更好的客户互动,最终将有助于赢得更多的市场份额。因此,我们正在推动我们的客户朝着这个方向努力。我看到我们合作的一些CEO都完全认同这一点,他们明白这将是一个多年的投资周期,短期内可能看不到收益,但从长期来看,前景非常光明。

但是如果他们真的能够顺利渡过这一过程,那么他们将会看到巨大的变革。我认为,围绕一些小的用例和更边缘的应用场景的热潮是好的,这很令人兴奋,我认为他们应该去尝试。但对我来说,这并不是我们大家所追求的终极目标。

David George: 是的,现在应用层面仍处于非常早期的阶段。虽然有一些自动化,但主要还是以聊天机器人为主。作为一家初创企业的投资者,我希望随着时间的推移,初创企业能够抓住这个机会,通过产品创新来击败那些已经站稳脚跟的公司。我的合伙人Alex有一句话:“初创公司能否在巨头找到创新之前获得分销渠道?” 我认为这确实是个机会,但目前技术还处于太早期的阶段,不知道你是否同意这个观点。

Alexandr Wang: 我同意,目前的技术还很早期。因为目前的优势主要体现在成本节省上,而这并不足以颠覆那些已经在市场上占据优势的巨头。那些大企业已经经历了成长和分销的各种成本,所以仅靠节省成本并不足以对他们构成威胁。

David George: 你认为企业内部的数据有多大的价值?比如说,JP Morgan有15PB的数据(记不清具体数字了),这些数据是否被高估了?其中有多少是真正有用的?因为到目前为止,这些数据并没有为他们带来实质性的竞争优势,你认为这种情况会改变吗?

Alexandr Wang: 我认为,AI可能是第一次让这种情况发生变化的机会。过去的“大数据”浪潮主要是为了更好的分析,帮助商业决策,但并没有真正改变产品的运作方式。而现在,我们可以想象到一些产品运作方式的重大变革。举个例子,像JP Morgan或Morgan Stanley这样的银行,它们与客户之间很多有价值的互动都是由人来驱动的。虽然他们尽力确保每个客户的体验都很高质量,但毕竟这种大规模的人工操作有很多局限性。

而所有这些过去的客户互动和业务运作方式,是目前唯一可用的数据,可以用来训练模型以更好地执行这些任务。对于财富管理等领域,网络上几乎没有足够的训练数据,所以企业内部的数据非常丰富且宝贵。我认为,并不是所有企业数据都对业务转型有用,但其中有些数据极其宝贵。然而,企业在利用这些数据方面面临很大挑战。数据通常组织不善、分散在各个地方,他们花费数千万甚至上亿美元请咨询公司进行数据迁移,但结果却没有任何变化。

AI巨头投入远超过收入

David George: 是的,通常情况下,企业投入了很多,却没有看到实质性的效果。

Alexandr Wang: 对,因此,企业能否快速有效地利用他们的数据,实际上是一个关键问题。就像你说的,这将是一个竞赛:企业能否在某个初创公司凭借一小部分数据打造出一款完全不同的产品之前,找到方法利用并充分挖掘自己的数据。

David George: 那么说到你如何运营和构建公司,一个你常提到的事情是,你在2020年和2021年快速扩张时期在招聘方面犯过的错误。当时很多公司都在争夺人才,你们也觉得需要大量招聘,那么你从中学到了什么,又是如何改变之后的做法呢?

Alexandr Wang: 过去几年,我们基本上保持了人员数量的稳定,虽然随着业务增长略有增加,但整体人员规模保持平稳。然而,业务本身在这段时间增长了5-6倍,这整个过程中让我学到的教训是,尽管看起来增加更多的人手会带来更好的结果,但实际上,如果你拥有一个高效的团队和组织,要在不损害其高效率的情况下实现规模扩张几乎是不可能的。增加人员通常会导致沟通和协调成本的上升,反而降低了生产力。

David George: 是的,减少沟通和协调的成本实际上能提高生产力。

Alexandr Wang: 对,但还有更深层次的原因。一个高效的团队就像一座精巧的雕塑,每个人之间都存在微妙的互动。如果突然增加很多新成员,即使他们本身都很优秀,整个团队的动态也会被打乱。而且,随着人员的增加,团队的平均表现必然会向中等水平回归。我们看到一些规模扩大的公司都意识到了这一点,尤其是那些靠扩大销售团队来推动财务业绩的公司,他们通常会承认这种“回归到平均水平”的现象。但如果你能在平均水平上稍微高出一些,并且有效地运作,那么整个财务表现仍然是可行的。

David George: 是的,在销售方面确实是这样的,和产品团队有很大不同。

Alexandr Wang: 没错,但我们的观察是,初创公司通常需要高效的小团队来取得成功。

David George: 因为你拥有高效的团队,而且希望尽可能长时间保持这些高效的团队完整。我认为,初创公司常见的失败模式之一就是:你有一个运作良好的业务,但是团队成员都很年轻,随着公司的规模扩大,各种问题开始涌现。然后,你的投资人建议你去招聘一些高管,于是你开始了这些令人筋疲力尽的招聘过程。即使你很幸运,找到的高管有一半能胜任,但接下来,你就会赋予这些高管很大的自主权。

Alexandr Wang: 是的,然后这些高管会说:“我们需要一个庞大的团队来实现目标。”你会觉得:“嗯,我可能不太有经验,但你们看起来很有经验,那就按照你们说的去做吧。”然后,你让他们建立庞大的团队。现实情况是,这几乎总是以失败告终。这并不是说你不能从外部招聘高管,而是说当你从外部招聘高管时,你需要让他们真正深入了解公司的运作方式。在他们提出任何重大建议之前,他们需要了解公司的节奏和运营,弄清楚为什么公司现有的模式能够成功。接下来,他们可以提出一些小的建议,你可以信任并验证每一个小步骤,最终他们或许可以提出更全面的建议,但前提是他们在此之前已经有了提出小建议并取得良好效果的明确记录。

David George: 这确实很有意思,而且非常实际。也就是说,当你招聘一位高管时,应该让他们从小处着手。这其实有些反直觉,因为大多数高管并不想从小事做起。

Alexandr Wang: 是的,我注意到有一种“高管幻想”,并不是说高管不好,他们都很出色,但这种幻想尤其在硅谷的年轻创始人中很常见。那种幻想是:“我要进来,然后彻底改变这个公司,让它变得更加专业。”但实际上,你招募的是团队成员,而不是某种魔法师。你希望的是一个能够在长时间内为公司做出明智决定的团队成员,而不是某种魔法工具,能够带着神奇的公式让一切立即奏效。

David George:  你提到了一个很有趣的观点,那就是“创始人幻想”或“创始人CEO幻想”。他们会想:“我只要招募一群出色的高管,他们会帮我处理我不愿意做的事情。”

Alexandr Wang: 是的,他们会认为:“这些高管会处理我不想做的所有事情,然后我就可以轻松地坐在一旁,观察机器运转。”但这也是极不现实的。作为一名优秀的创始人CEO,你之所以成功,是因为你能够持续做出正确的决策。如果你将自己从这些决策环节中抽离出来,那简直是不可思议的。

David George: 我们经常看到这样的模式:“我要雇佣高管,然后我可以退居二线。”结果却是,他们意识到一些关键决策出错了,然后才会恍然大悟:“这就是我存在的意义所在啊!”我认为如果你的行业非常稳定,那这种做法可能是可行的。看看那些上市公司,每次更换CEO时,股价波动也不过2%左右,这说明CEO对公司影响并不大。但这与由创始人经营的高速成长的初创公司是完全不同的。

Alexandr Wang: 没错,很多初创公司和企业的价值其实是来源于一种“创新溢价”。投资者相信,由创始人领导的公司会在市场上更具创新能力。因此,作为创始人,你的工作就是要在市场上不断创新,所以你必须参与到战略决策中。

初创公司建议

David George: 当然。那么关于“Mei”这个概念,你最近推出了它,我的X(社交媒体)上的一半人都在夸奖你,当然也有一部分人在批评你。你能谈谈这个概念,以及你推出后的观察吗?

Alexandr Wang: 好的,“MEI”这个概念其实是指“Merit, Excellence, and Intelligence(能力、卓越和智慧)”。我们基本上推行的理念是,无论任何岗位,我们都要雇佣最优秀的候选人,而不考虑他们的背景或人口统计特征。我们不会为了满足某些人口统计指标而对员工进行“配额”优化,这并不意味着我们不在乎多样性。我们实际上非常关注确保招聘过程中的多样性,以及在所有岗位的初始候选人池中保持多样性。但是最终,最有能力、最合适的人将是我们所雇佣的人。

David George: 这个想法确实有些争议性,但从常识的角度来说,公司的招聘应该是寻找最有才华的人。

Alexandr Wang: 是的,我认为大家有时候确实会忘记这一点。公司应该雇佣最有才华的人才。当然,有人会质疑公司的社会责任应该是什么。在我看来,我们处于一个非常竞争激烈的行业,Scale的使命是推动人工智能的发展,这是一项非常重要的技术。为了做到这一点,我们需要极其聪明和出色的人才。我认为,这实际上并不是对我们在Scale内部理念的背离,反而是对它的一种明确的阐述。这也让大家对公司未来的发展方向充满信心,即使随着时间的推移,公司会发生变化,但我们的这种质量标准不会改变。

David George: 太棒了,我想用一个充满乐观的问题来结束这个对话。你对AGI(通用人工智能)的定义是什么?你认为我们何时能实现它?

Alexandr Wang: 我喜欢这样一个定义:AGI是能够完成80%以上由人类执行的工作,尤其是以计算机为核心的数字化工作,AI能够完全胜任这些工作。我认为这并不是一件即将发生的事情,也不是马上会实现的目标。可能还需要大约4年以上的时间,但我们已经开始看到一些迹象了。根据我们之前提到的算法创新周期,这个过程可能会比我们想象的更快。

David George: 非常令人兴奋!Alex,非常感谢你今天的到来,和你聊天总是受益匪浅,真的很感谢!

Alexandr Wang: 谢谢你们的邀请,很高兴和你们交流。

原视频链接:https://www.youtube.com/watch?v=HSeE40X60rA&t=1s

文章来自于微信公众号“AI深度研究员”

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...