月之暗面杨植麟专访：AI不是接下来一两年找到PMF，而是接下来十到二十年如何改变世界

2024-03-03 阅读 61 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

01 站在开端：「要 ride the wave」

腾讯新闻《潜望》：最近你的状态怎么样？

杨植麟：忙啊，事情很多。但还是很兴奋。站在产业开端，有巨大想象空间。

腾讯新闻《潜望》：我刚进来看到你们公司门口放了一架纯白色钢琴。

杨植麟：上面还有一张 Pink Floyd 专辑。我都不知道谁放的，前两天突然看到，没来得及问。（Pink Floyd 是发布专辑《月之暗面》的英国摇滚乐队）

月之暗面杨植麟专访：AI不是接下来一两年找到PMF，而是接下来十到二十年如何改变世界

杨植麟与导师 Ruslan Salakhutdinov（右）、William Cohen（左）合影

腾讯新闻《潜望》：2022 年 11 月，ChatGPT 发布那天，你在做什么？

杨植麟：我正在筹备这个事，找人组团队，碰撞一些新认知。看到 ChatGPT 很激动。放到三五年前，甚至 2021 年，都是不可思议的。这种高阶推理能力过去很难做到。

我预感市场会发生很多变量：一方面是资本，一方面是人才，这是做 AI 的核心生产要素。如果变量成立，我们就有可能正儿八经搞一家公司做这件事——一个为 AGI 搭建的组织从 0 到 1 存在可能性，这是很大的顿悟。独立公司更 make sense，但不是你想做马上就能做，ChatGPT 刺激了变量，使生产要素齐全。还是要 ride the wave。

腾讯新闻《潜望》：你在决定创立一家 AGI 公司后，做了哪些准备？怎么凑齐资本和人才这两个生产要素？

杨植麟：是曲折的过程。ChatGPT 扩散需要时间。有的人知道得早，有的人知道得晚，有的人一开始怀疑、后面变成震惊、再变成相信。找人找钱，跟 timing 结合得很紧。

我们 2023 年 2 月开始集中做第一轮融资。如果 delay（延迟）到 4 月，基本没机会了。但如果 2022 年 12 月或 2023 年 1 月做也没机会，当时有疫情，大家没反应过来——所以，真正窗口就是一个月。

当时，在美国有一个晚上，我做了精确的计算。算完觉得至少要在几个月内拿到 1 亿美元。市场上很多人没开始融资，很多人觉得你这个不一定能融这么多钱。但后来证明是可以的，甚至比这个更多。

人才市场开始流动。受 ChatGPT 启发，很多人在 2023 年 3 月或 4 月有这样的 realization（意识）：这是接下来十年唯一值得做的。要在正确时间积极触达对的人。如果是前两年，人才聚集度不会这么高。那时更多人做传统 AI，或者跟 AI 相关的业务，都不是通用 AI。

腾讯新闻《潜望》：总结一下，2 月是融资的窗口期，3 月、4 月是招人的窗口期？

杨植麟：差不多。

腾讯新闻《潜望》：你在美国那一晚是在哪算了这笔账？具体怎么算的？

杨植麟：22 年底到 23 年初，我在美国待了一两个月，找人聊。

在我住的地方。算一下你对应多少 FLOPs（Floating Point Operations，每秒浮点运算次数）、Training Cost（训练成本）、Inference（推理）、用户量。

腾讯新闻《潜望》：彼时彼刻，硅谷沉浸在什么样的情绪中？

杨植麟：这个产品开始有很多 early adopters（早期用户），集中在技术圈，我们本身在这个圈子，感受更深刻。硅谷大厂每半年要写 performance review（绩效评估），开始很多人用 ChatGPT 写。有的人平时写的语言不大 professional（专业），用 ChatGPT 写，大家都一本正经的样子。

暗流涌动。很多人考虑下一份工作去哪或者创业。很多和我们聊的朋友后来纷纷创业。而且，有很强 FOMO 情绪（Fear of Missing Out，害怕错过）。所有人每天睡不着觉。不管晚上 12 点、1 点、2 点，你去找，always 大家都在。有点焦虑，有点 FOMO，又很兴奋。

腾讯新闻《潜望》：算出要融 1 亿美金那晚，你算到了几点？

杨植麟：还好吧，计算过程倒不用很久。

但算完我也不能跟太多人说。说了也没有人觉得这事可以做。

02 技术师承：「把自己从无限雕花中解放出来」

腾讯新闻《潜望》：创投行业提到你会说，「创始人很聪明，有技术号召力，团队里也有很多技术明星」。所以，聊大模型创业之前，想先聊聊你的学术背景。

你本科是清华计算机系，博士是卡耐基梅隆计算机学院，方向一直是 AI 吗？

杨植麟：我是 92 年出生，11 级本科，大二到现在十多年一直在这个方向。一开始偏发散的探索，到处看看，跟图或多模态都做过一些，2017 年收敛到语言模型——当时觉得语言模型是比较重要的问题，后来觉得它是唯一重要的问题。

腾讯新闻《潜望》：2017 年 AI 业界对语言模型普遍是怎样的认知，后来如何演进？

杨植麟：它（当时）是用来给语音识别做排序的模型。（笑）当你识别完一段语音，有很多结果，拿语言模型看到底哪个概率更大，输出最有可能的结果，应用非常有限。

但你发现它是根本问题，因为你在对这个世界概率建模。虽然语言局限，它是世界的投映；但理论上你把 token space（所有可能的标记组成的空间）做得更大，就可以构建一个通用世界模型。世界上每样东西怎么产生、发展，都能给它分配一个概率。所有问题都可以被归结成怎么对概率估计。

腾讯新闻《潜望》：你学术生涯的导师很有名，博士导师是苹果公司 AI 负责人 Ruslan Salakhutdinov 和 Google AI 智能首席科学家 William W. Cohen。他们都既在产业界，又在学界。

杨植麟：产业界和学术界从前几年有更多结合，现在趋势在变化：更多有价值的突破会产生在工业界，这是发展的必然规律。先从探索性研究开始，逐渐转移到更成熟的工业化过程，但不意味着工业化过程中不需要研究，只是纯研究会很难做出有价值的突破。

腾讯新闻《潜望》：从这几位颇有名望的导师身上学到了什么？

杨植麟：我学习到最多是在 Google，实习了很长时间。2018 年底开始做基于 Transformer 的语言模型，最大 learning 是从无限雕花中把自己释放出来，这很关键。

应该看什么是大方向、大梯度。当你眼前有十条路，一般人考虑我走这条路前面有一个行人怎么刹车，是短期细节，但这十条路到底选哪一条最重要。

这个领域在之前有这样的问题。比如，在只有一两百万 token（标记）的数据集上，看 perplexity（困惑度，衡量模型在预测序列时的不确定性或混乱度）怎么降得更低，loss（损失，模型在训练过程中的误差或损失函数的值）怎么降得更低，怎么提升准确率，你会陷入无限雕花。有人发明很多诡异的 architecture（架构），这些是雕花技巧。雕花之后可能在这种数据集上变好，但没看到问题本质。

本质在于，要去分析这个领域缺少的是什么？第一性原理是什么？

Scaling law 为什么能成为第一性原理？你只要能找到一个结构，满足两个条件：一是足够通用，二是可规模化。通用是你把所有问题放到这个框架建模，可规模化是只要你投入足够多算力，它就能变好。

这是我在 Google 学到的思维：如果能被更底层的东西解释，就不应该在上层过度雕花。有一句重要的话我很认同：如果你能用 scale 解决的问题，就不要用新的算法解决。新算法最大价值是让它怎么更好的 scale。当你把自己从雕花的事中释放出来，可以看到更多。

腾讯新闻《潜望》：Google 那时也是 scaling law 的追随者吗？它是怎么贯彻第一性原理的？

杨植麟：已经有很多这样的思想，但 Google 没有贯彻得非常好。它有这样的思维，但它没办法组织起来，变成一个真正的 moonshot（登月计划）。更多是，这有 5 个人追求我的第一性原理，那有 5 个人追求他们的第一性原理。没有 top-down（自上而下）的东西。

腾讯新闻《潜望》：你读博期间，先后和图灵奖得主 Yann LeCun（杨立昆）、Yoshua Bengio 合作发表论文，而且你都是一作。学术上这些合作是怎么产生的？——我的意思是，他们是图灵奖得主，又不是你的导师，你靠什么吸引他们？

杨植麟：学术界很 open。只要你有好的想法、有意义的问题，这个都还好。两个脑子或 n 个脑子做出来的，比一个脑子多。这在开发 AGI 的时候也可以用。AI 一个重要策略叫「ensemble」（使用集成方法，用多个不同的模型或方法，将它们的预测或结果结合起来，获得更优性能），本质在做一样的事情，当你有 diverse 的观点你可以碰撞出很多新东西。合作有很大受益。

腾讯新闻《潜望》：你是先有一个 idea，拿去问他们是否感兴趣吗？

杨植麟：差不多是这个过程。

腾讯新闻《潜望》：在学术上搞定学术大佬和在融资中搞定资本大佬哪个更难？相似点是什么？

杨植麟：「搞定」不是一个好的词，背后本质是合作。合作就是能双赢，因为双赢是合作的前提。所以也没什么区别，需要给别人提供独特价值。

腾讯新闻《潜望》：怎么让他们信任？你觉得你的天赋是什么？

杨植麟：也没有什么天赋，就是努力干活。

03 旧系统不适用了：「AGI 需要新的组织方式」

腾讯新闻《潜望》：你刚说「更多有价值的突破会发生在工业界」，包括创业公司、巨头的 AI lab？

杨植麟：Lab 是历史了。以前 Google Brain 是产业界最大 AI lab，但它是把研究型组织安插在大公司。这种组织能探索新想法，很难产生伟大系统——能产生 Transformer，但产生不了 ChatGPT。

现在的开发方式会演变成，你是要做一个巨大的系统，需要新的算法，扎实的工程，甚至很多产品和商业化。好比 21 世纪初，你不可能在实验室研究信息检索，要放在现实世界，有一个巨大的系统，有一个有用户的产品，像 Google。所以，科研或教育系统会转变职能，变成培养人才为主。

腾讯新闻《潜望》：你会怎么形容这个新的系统形式？OpenAI 是它的雏形？

杨植麟：它是现在最成熟的组织了，还在逐渐演化。

腾讯新闻《潜望》：可以理解，这是为人类宏伟的科学目标而设立的组织？

杨植麟：我想强调，它不是纯科学，它是科学、工程和商业的结合。它得是一个商业化组织，是公司、不是研究院。但这个公司是从零到一建造的，因为 AGI 需要新的组织方式——一，生产方式跟互联网不一样；二，它会从纯研究变成研究、工程、产品、商业相结合。

核心是，它应该是一个登月计划，有很多自顶向下的规划，但规划中又有创新空间，并不是所有技术都确定。在一个 top-down（自上而下）框架下有 bottom-up（自下而上）的元素。本来不存在这样的组织，但组织要适配技术，因为技术决定了生产方式，不匹配就没法有效产出。我们相信大概率要重新设计。

腾讯新闻《潜望》：去年 OpenAI 政变时，Sam Altman 有一种选择是加入微软，领导新的微软人工智能团队。这和他在 OpenAI 做 CEO 的本质差别是什么？

杨植麟：你需要在旧文化里产生新组织，难度很大。

腾讯新闻《潜望》：你想做「中国的 OpenAI」，可以这么说？

杨植麟：不大准确，我们不想做中国的什么东西，也不一定想做 OpenAI。

首先，真正 AGI 肯定是全球化的，不存在由于市场保护机制导致你只能做某个 regional market（区域市场）的 AGI 公司，长期不存在——全球化、AGI 和你有一个很大用户量的产品，这三个东西最终是必要条件。

第二，是不是 OpenAI？你去看 2017 年-2018 年，OpenAI 风评很差，我们圈子的人找工作，一般考虑像 Google。很多人跟 Ilya Sutskever（OpenAI 首席科学家）聊完，觉得这个人疯了，太自以为是了——OpenAI 不是疯子就是骗子。但他们从很早开始投入，找到非共识，找到 AI 现在唯一 work 的第一性原理：通过 next token prediction 去 scale（通过对下一个标记的预测来进行规模化）。

我认为，会有比 OpenAI 更伟大的公司存在。一个真正伟大的公司能结合技术理想主义，并让它用一个伟大的产品跟用户共创，AGI 最终会是一个跟所有用户 co-work（协作）产生的东西。所以，不光是技术，也需要功利主义和现实追求。最终在这两者之间完美结合。

不过我们应该学习 OpenAI 的技术理想主义。如果所有人都觉得你正常，你的理想是大家都能想到的，它对人类的理想总量没有增量。

04 登月的第一步是长文本，第二步呢？

「接下来会有两个 milestone」

腾讯新闻《潜望》：话题回到你决定创业的时刻，你回国后立马启动了第一轮融资？

杨植麟：（去年）2 月在美国就开始了，也有远程的。最后以国内投资人为主。

腾讯新闻《潜望》：第一轮融了1亿美金？

杨植麟：第一轮还没有，后来超过这个数。2023 年完成两轮，总共近 20 亿人民币。

现在是第三轮。融资我们没有正式 announce，现在没办法 comment。

腾讯新闻《潜望》：有人说，2023 年下半年开始，已经没有人愿意投基础大模型公司了，他们说的是错误的？

杨植麟：还是有。确实能看到情绪变化，不是说没人投，至少目前市场上投资意向是蛮多的。

腾讯新闻《潜望》：除了资本和人，你在 2023 年还做了哪些关键决策？

杨植麟：要做什么事。这是我们这类公司的优势——在最高层面的决策有技术 vision（愿景）。

我们做 long context（长上下文），需要对未来有判断，你要知道什么是根本的、接下来的方向。还是第一性原理，「去雕花的过程」。如果你专注雕花，只能看 OpenAI 已经做了什么，我看怎么把它已经做的做出来。

你会发现在 Kimi（AI 智能助手）里做长文本无损压缩，产品体验独特。读英语文献，它能很好帮你理解。你今天用 Claude 或 GPT-4，不一定做得好，需要提前布局。我们做了半年多。相比我今天看到一个 long context 风口，赶紧召集两个团队，用最快速度开发，有很大区别。

当然马拉松刚开始，接下来会有更多差异化，这需要你提前预判到底什么是「成立的非共识」。

腾讯新闻《潜望》：做这件事是在几月份决定的？

杨植麟：二三月，公司成立就决定了。

腾讯新闻《潜望》：为什么长文本是登月第一步？

杨植麟：它很本质。它是新的计算机内存。

老的计算机内存，在过去几十年涨了好几个数量级，一样的事会发生在新的计算机上。它能解决很多现在的问题。比如，现在多模态架构还需要 tokenizer（标记器），但当你有一个无损压缩的 long context 就不需要了，可以把原始的放进去。进一步讲，它是把新计算范式变成更通用的基础。

旧的计算机可以 0、1 表示所有，所有东西可被数字化。但今天新计算机还不行，context 不够多，没那么通用。要变成通用的世界模型，是需要 long context 的。

第二，能够做到个性化。AI 最核心的价值是个性化互动，价值落脚点还是个性化，AGI 会比上一代推荐引擎更加个性化。

但个性化过程不是通过微调实现，而是它能支持很长的 context（上下文）。你跟机器所有的历史都是 context，这个 context 定义了个性化过程，而且无法被复刻，它会是更直接的对话，对话产生信息。

腾讯新闻《潜望》：接下来它有多大可扩展的空间？

杨植麟：非常大。一方面是本身窗口的提升，有很长路要走，会有几个数量级。

另一方面是，你不能只提升窗口，不能只看数字，今天是几百万还是多少亿的窗口没有意义。你要看它在这个窗口下能实现的推理能力、the faithfulness 的能力（对原始信息的忠实度）、the instruction following 的能力（遵循指令的能力）——不应该只追求单一指标，而是结合指标和能力。

如果这两个维度持续提升，能做非常多事。可能可以 follow（执行）一个几万字的 instruction（指令），instruction 本身会定义很多 agent（智能体），高度个性化。

腾讯新闻《潜望》：做长文本和追赶 GPT-4 技术是可复用的吗？他们是一件事吗？

杨植麟：我觉得不是。更多是升维，是一个新维度，是 GPT-4 没有的维度。

腾讯新闻《潜望》：很多人说国内这几家大模型公司做的事都差不多——2023 年追赶 GPT-3.5，2024 年追赶 GPT-4。你认可这种说法吗？

杨植麟：综合能力提升肯定有关键目标，这个说法一定程度上是对的，你是后发肯定有追赶过程。但同时它是片面的。除了综合能力，在很多空间可以产生独特的能力，能在一些方向做到 state of the art（世界领先）。Long context 是一个。DALL-E3 图片生成效果完败于 Midjourney V6。所以要做两方面。

腾讯新闻《潜望》：综合能力和新维度分别耗费的时间及生产资源，占多大比例？

杨植麟：需要结合，新维度不可能脱离综合能力存在，很难直接给出一个比例。但需要足够投入才能把新维度做好。

腾讯新闻《潜望》：这些新维度对于你们，都会承载在 Kimi 上？

杨植麟：这肯定是我们很重要的产品，也会有一些别的尝试。

腾讯新闻《潜望》：怎么看李广密（拾象创始人）说，中国大模型公司今天的技术辨识度还不算太高？

杨植麟：我觉得还好啊，我们今天只是做出了很多差异化。这跟时间有关系，今年应该能看到更多维度。去年大家是先搭个架子，先跑起来。

腾讯新闻《潜望》：登月的第一步是长文本，第二步是什么？

杨植麟：接下来会有两个大的 milestone（里程碑）。一是真正的统一的世界模型，就是它能统一各种不同模态，一个真正的 scalable 和 general 的 architecture（可扩展、通用的系统结构）。

二是能在没有人类数据输入的情况下，使 AI 持续进化。

腾讯新闻《潜望》：这两个milestone需要多久达到？

杨植麟：两到三年，有可能更快。

腾讯新闻《潜望》：所以三年后我们已经看到的是和今天完全不一样的世界了。

杨植麟：按照今天的发展速度是这样。现在技术是萌芽，快速发展的阶段。

腾讯新闻《潜望》：能不能畅想一下三年后会出现什么？

杨植麟：会有一定程度的 AGI。我们今天在做的很多事 AI 也能做，甚至它做得更好。但关键看我们怎么用它。

腾讯新闻《潜望》：对于你、对于月之暗面这家公司来说呢？接下来第二步是什么？

杨植麟：我们会去做这两件事。剩下很多问题，都是这两个因素推导出来的。今天谈到 reasoning（推理）、agent（智能体），都是这两个问题解决后的产物。要再做一些雕花，但没有 fundamental 的 blocker（根本性阻碍因素）。

腾讯新闻《潜望》：你会 all in 追赶 GPT-4 吗？

杨植麟：（GPT-4）是 AGI 的必经之路。核心是，不能只满足做到 GPT-4 的效果。一是要想现在真正的非共识是什么，除了 GPT-4，下一步是什么？GPT-5 和 GPT-6 应该是什么样？二是看，你在这里面有哪些独特能力，这点更重要。

腾讯新闻《潜望》：其他大模型公司会公布自己的模型能力和排名，你们好像没做这件事？

杨植麟：刷榜意义很小了。最好的榜就是用户，应该让用户投票。很多榜存在问题。

腾讯新闻《潜望》：在中国大模型公司的竞赛中最快达到 GPT-4，是你的目标吗？快与慢有区别吗？

杨植麟：肯定有，如果把时间放到足够长周期，最终所有人都能达到。但要看你早晚是多长周期。半年或以上的周期是有意义的，也取决于你能用这个周期做什么事。

腾讯新闻《潜望》：你们预计会在什么时间达到 GPT-4？

杨植麟：应该会很快，具体时间还没办法对外说。

腾讯新闻《潜望》：你们会是最快的吗？

杨植麟：这要动态去看，但我们有概率。

腾讯新闻《潜望》：推出 Kimi 之后，你的北极星指标是什么？

杨植麟：今天是把产品做得更好，有更多升维（即新的维度）。举个例子，不应该只去卷一个搜索场景，搜索在后面只是这个产品有价值的很小一部分，这个产品应该有更大增量。比传统搜索引擎好个 10%、20%，没什么太大价值——只有一个颠覆性的东西，才配得上 AGI 这三个字。

独特价值是你增量的智能。要抓住这个点，智能永远是最核心的增量价值。如果你这个产品最核心价值只有 10%-20% 来自于 AI，就不成立。

05 我一点也不焦虑落地：「user scaling 和 model scaling需要同时做」

腾讯新闻《潜望》：2023 年中是一个巨大分水岭，市场从狂热迅速转冷。你的感知是怎样的？

杨植麟：这个判断我不完全认同，我们确实在下半年完成了一轮融资。而且，持续有新东西出来。今天的模型能力在去年底无法想象。越来越多 AI 公司的用户量和 revenue（收入）一直在上升。它持续地证明了价值。

腾讯新闻《潜望》：上半年和下半年对于你来说，不同感受是？

杨植麟：没有太大变化，变量肯定存在，但回到第一性原理——怎么给用户提供好产品。最终，我们要满足用户需求，而不是赢得一场比赛。我们不是为了竞争而建立的公司。

腾讯新闻《潜望》：业界认为，2023 年上半年和下半年一个显著区别是，关注重心变了。上半年提 AGI 更多，下半年开始讲怎么落地、怎么商业化。你有没有这么做？

杨植麟：我肯定要做 AGI 嘛，这是接下来十年唯一有意义的事。但不是说我们不做应用。或者，不应该把它定义成一个「应用」。

「应用」听起来好像你有一个技术，你想把它用在什么地方，有商业化闭环。但「应用」不是准确的词。它跟 AGI 是相辅相成的。它本身是实现 AGI 的手段，也是实现 AGI 的目的。「应用」听起来更像目的：我为了让它有用。你是要 combine 东西方的哲学，要赚钱，也要有理想。

今天用户帮我们发现了很多从没考虑过的场景。他拿这个筛选简历，这是我们设计产品时没想过的，但它天然 work。用户的输入反过来让模型变得更好。Midjourney 为什么效果好？它在用户端做了 scaling——user scaling 和 model scaling 需要同时做。反过来，你如果只关注应用，不关注模型能力迭代，不关注 AGI，贡献也有限。

腾讯新闻《潜望》：朱啸虎（金沙江创投主管合伙人）就只投大模型的应用。他有一个观点：核心最难的是AIGC 的 PMF——你十个人找不到 PMF，你投一百个人也找不到，和人数、和成本没关系，不要砸钱。他说「用 LLaMA 训练两三个月，至少能做到人类 top 30 的水平，立马可以取代人」。你怎么看他的观点？

杨植麟：AI 不是我在接下来一两年找到什么 PMF，而是接下来十到二十年如何改变世界——这是两种不同思维。

我们是坚定的长期主义者。当你实现 AGI 或更强智能，今天的一切会被改写。PMF 固然重要，但如果着急找 PMF，你很可能又被降维打击。降维打击发生过太多次。以前很多人做客服、对话系统，做 slot filling（槽填充），有些规模不错的公司。但是，全是降维打击了，很难受。

它不是说不成立。假设你今天找到一个场景，用现在的技术能力，且从 0 到 1 增量价值巨大，从 1 到 n 空间又没那么大，这种场景 OK。Midjourney 就是，或者做文案生成，相对简单一点的任务，从 0 到 1 效果又很明显。这种是只关注应用的机会。但是，最大机会不在这。你的目的假设是商业化，你不可能脱离 AGI 去思考。我现在只做应用，那好，可能过一年你就被碾压了。

腾讯新闻《潜望》：可以偷偷把底层模型升级啊。

杨植麟：但这个不可能做得比它更大。技术是这个时代唯一新变量，其他变量没变。回到第一性原理，AGI 是所有事情的核心。基于这个，我们推导出来：超级应用肯定需要有最强的技术能力。

腾讯新闻《潜望》：可以用开源的模型吗？（最新消息是Google 宣布开源模型 Gemma）

杨植麟：开源落后于闭源，这也是个事实。

腾讯新闻《潜望》：会不会只是暂时落后？

杨植麟：目前看起来不是。

腾讯新闻《潜望》：为什么开源追不上闭源？

杨植麟：因为开源的开发方式跟以前不一样了，以前是所有人都可以 contribute（贡献）到开源，现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集，最后一定是闭源更好，是一个 consolidation（对市场的整合）。

如果我今天有一个领先的模型，开源出来，大概率不合理。反而是落后者可能会这么做，或者开源小模型，搅局嘛，反正不开源也没价值。

腾讯新闻《潜望》：你怎么对抗国内的焦虑情绪？他们会说，大模型公司如果没有快速做出能兑现投资人预期的落地场景和产品，难以融到下一笔钱。

杨植麟：需要有长期和短期的平衡。完全没有用户、没有收入，肯定不行。

可以看到，从 GPT-3.5 到 GPT-4，解锁了很多应用；从 GPT-4 到 GPT-4.5 再到 GPT-5，大概率会持续解锁更多，甚至是指数型的应用。所谓「场景摩尔定律」，就是你能用的场景数量会随着时间指数级上升。我们需要边提升模型能力，边找更多场景，需要这样的平衡。

它是个螺旋。看你投入多少分配在短期，多少分配在长期。要在你能活下去的情况下，追求长期。长期一定不能没有，否则你会错过整个时代。今天下结论，确实太早了。

腾讯新闻《潜望》：你认可王慧文（美团联合创始人、光年之外创始人）提出的「双轮驱动」吗？

杨植麟：这是个好问题。一定程度上是这个逻辑。但你真正怎么去做，有很大区别。是不是能真的做一些「有概率的非共识」？

腾讯新闻《潜望》：我理解他们说的双轮驱动，也需要快速找到那个新的应用场景，否则不知道技术何以落地。

杨植麟：还是 model scaling（模型扩展）和 user scaling（用户扩展）之间的区别。

腾讯新闻《潜望》：国内除了你是 model scaling 的思维，还有谁是？

杨植麟：这个我就不好评价了。

腾讯新闻《潜望》：大多数人可能是 user scaling 的思维。或者能不能这么说，这是学院派和商业落地派的区别？

杨植麟：我们不是学院派，学院派绝对不 work。

腾讯新闻《潜望》：很多大模型公司会通过 to B 落地（毕竟to B 的确定性高），你们做吗？

杨植麟：我们不做。我们从第一天就决定做 to C。

看你要什么东西。如果你知道这不是你想要的，你就不会 FOMO。因为得到了，也没啥。

腾讯新闻《潜望》：你焦虑吗？过去一年。

杨植麟：更多是兴奋、激动。因为这件事我想了非常久。我们可能是我们最早想去探索月之暗面的人。你今天发现你真的在造一架火箭，每天在讨论往火箭里加什么燃料跑得更快，怎么样不让它炸了。

腾讯新闻《潜望》：总结一下你所做过的「有概率的非共识」决定，除了 to C、长文本，还有吗？

杨植麟：更多在过程中，希望尽快跟大家见面。

腾讯新闻《潜望》：中国上一代创业者在应用和场景上吃到甜头，所以他们更看产品、用户、数据飞轮。以你为代表的新一代 AI 创业者，能代表新的未来吗？

杨植麟：我们也很关注用户，用户是我们最终的目标，但也是共创的过程。最大区别是，这次会更加技术驱动——还是那个马车和汽车的问题——现在属于从马车到汽车的跳跃过程，应该尽可能想怎么给用户提供一辆汽车。

腾讯新闻《潜望》：你会觉得孤独吗？

杨植麟：哈哈哈……你这个问题很有意思。我觉得还好，因为我们还有大几十、100 号人一起在战斗。

06 GPT-4 还没赶上，Sora 又来了

「现在就有点像视频生成的 GPT-3.5，是阶跃式提升」

腾讯新闻《潜望》：今年Sora 的突然出现，多少在你的意料之中，多少在你的意料之外？

杨植麟：Generative AI（生成式 AI）做到这个效果，在意料之内，意外的是时间——比之前预估更早。这也反映了现在 AI 的发展很快，很多 scaling 的红利没有被完全吃下来。

腾讯新闻《潜望》：去年业界就判断，2024 年大模型一定会卷多模态叙事，视频的生成效果会像 2023 年文生图一样迅速提升。Sora的技术能力是超出、符合还是低于你的预期？

杨植麟：解决了很多之前比较难的问题。比如，能在一个比较长的时间窗口内保持生成的一致性，这是关键点，是一个巨大的提升。

腾讯新闻《潜望》：它对于全球产业格局来说意义是什么？2024 年大模型会有哪些新叙事？

杨植麟：一是短期的应用价值，可以在生产环节进一步提升效率，当然更期待在目前能力基础上，有更多延展。二是和其他模态结合。它本身是对世界建模，有了这个知识，对现有文本是非常好的补充。在这个基础上，不管在 agent 还是和物理世界的连接方面，有蛮多空间和机会。

腾讯新闻《潜望》：你们总体怎么判断 Sora？

杨植麟：我们本来也在筹划类似方向，做了一段时间。方向上，倒没有太大意外，更多是技术细节。

腾讯新闻《潜望》：应该学习的技术细节是？

杨植麟：很多 OpenAI 也没完全讲清楚。它讲了大致的，会有一些关键细节。这要从它的效果或已有信息再去判断，也结合我们之前的实验。至少对我们来说，在开发过程中会加上更多数据点，有更多数据输入。

腾讯新闻《潜望》：之前视频生成相对文字生成来说，主要瓶颈有哪？这次可以看到 OpenAI 找到了哪些解决办法？

杨植麟：主要瓶颈，核心还是数据，你怎么去规模化地拟合这个数据？之前没被验证过。特别是，当你的动作比较复杂，生成的效果 photo realistic（照片逼真）。在这样的条件下，能够去规模化，它这次解决了这些。

剩下的是它也没有完全解决，比如需要一个统一的 architecture（架构）。DiT 这个 architecture 仍然不是非常通用。在单纯对视觉信号的 marginal probability（边际概率）去建模，它可以做得非常好，但怎么泛化成一个通用的新计算机？还是需要更 unified architecture（统一的架构），这个东西还是有空间。

腾讯新闻《潜望》：你读了OpenAI 出的 Sora报告没有？——《Video generation models as world simulators》，里面有什么关键点值得划重点？

杨植麟：读了。考虑到当前的竞争情况，最重点它肯定都不会写出来。但还是值得学习，这个东西本来是付费内容，你可能要花钱做很多实验才知道，但现在你知道的有一些东西，不用花钱做实验，就大概有一个认知吧。

腾讯新闻《潜望》：你从里面提取到的关键信号是？

杨植麟：这个东西一定程度上是 scalable 的。此外，它也给出了比较具体的 architecture 到底怎么做。但也有可能不同 architecture 在这个事情上不一定有那么本质的区别。

腾讯新闻《潜望》：你认可它那句话吗？——「扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。」

杨植麟：我非常认同，这两个东西优化的是同一个目标函数，没有太大疑问。

腾讯新闻《潜望》：你怎么看杨立昆又跳出来反对生成式 AI？他的观点是：「通过生成像素对世界进行建模是一种浪费，并且注定会失败。生成恰好适用文本，因为文本是离散的具有有限数量的符号。这种情况下，处理预测中的不确定性很容易，处理高纬连续感官输入中的预测不确定性是非常棘手的。」

杨植麟：我现在觉得，你通过对视频的边际概率去建模，本质是在做无损压缩，跟语言模型 next token predictions 没有本质区别。只要你压缩得足够好，就可以把这个世界可以被解释的东西去进行解释。

但同时也有重要的还没做的事：它怎么跟已有的已经被压缩的能力结合起来？

可以理解成有两种不同压缩。一种是压缩原始世界，这是视频模型在做的。另一种是压缩人类产生的行为，因为人类产生的行为经过了人的大脑，这是世界上唯一能产生智能的东西。你可以认为视频模型在做第一种，文本模型在做第二种，当然视频模型也一定程度包含了第二种，一些人创造出来的视频包含了创作者的智能。

它最终可能会是 mix，需要通过这两种方式从不同角度学习，但最终对智能的增长都有帮助。

所以，生成可能不是目的，它只是压缩这个函数。如果你压缩足够好，最后生成的效果就会很好。反过来，如果你这个模型本身没办法生成，是不是也存在可能把它压缩得非常好？这点存疑。有可能生成非常好，是压缩非常好的一个必要条件。

腾讯新闻《潜望》：Sora相对于去年的 ChatGPT 来说，是两个不一样的 milestone，哪个更重大？

杨植麟：都很重要。现在就有点像（视频生成的）GPT-3.5，是阶跃式提升。它的模型也还比较小，可预见的是会有更大的模型，是确定性的效果提升。

腾讯新闻《潜望》：也有人评价说，对于做多模态，Google Gemini 突破更重要一些。

杨植麟：Gemini 是 follow GPT-4V 的路线，把这个理解也放进去了。都很重要，只是最终需要把这些东西放在同一个模型，这还没解决。

腾讯新闻《潜望》：为什么放在同一个模型那么难？

杨植麟：大家还不知道怎么做，还不存在一个被验证过的 architecture。

腾讯新闻《潜望》：Sora + GPT会产生什么？

杨植麟：Sora 马上可以用到视频生产过程中，但如果跟语言模型结合，就有可能打通数字世界和物理世界。另外，你也可以去更加端到端完成任务，因为现在你对这个世界的建模比之前更好，它甚至能用来提升你对多模态输入的理解能力。所以你最后能在不同模态之间做比较多切换。

总结下来，你对世界的理解更好了，你可以在数字世界里做更加端到端的任务，甚至去架起一座桥梁，连接物理世界，完成一些物理世界里的任务。这是起点。比方说，自动驾驶，或者一些家务，理论上都是打通物理世界的一个概念。

所以数字世界的突破是确定的了，但它也还是潜在有通往物理的可能。

腾讯新闻《潜望》：Sora对国产大模型公司意味着什么？有什么应对策略？

杨植麟：没什么区别，这本来就是确定性方向。

腾讯新闻《潜望》：国产大模型 GPT-4 还没赶上，Sora 又来了，你怎么看？两个世界好像差得越来越远，你感觉焦虑吗？

杨植麟：这就是客观的事实嘛。但实际上的差距可能还在缩小，这是技术发展的规律。

腾讯新闻《潜望》：什么意思？就是说，一开始技术曲线很陡峭，接着慢慢放缓。

杨植麟：是的。我倒没有很意外，OpenAI 一直在做下一代模型。但客观上差距会持续存在一段时间，甚至在国内不同公司之间的差距也会持续一段时间，现在是技术爆发期。

但再过两三年，有可能中国顶尖的公司可以在这里面去做好更多基础性工作，包括技术的基建、人才的储备和组织文化的沉淀，有这些打磨后，更有可能在某一些方面有领先可能性——但需要一定的耐心。

腾讯新闻《潜望》：中美最终有没有可能形成的是完全不一样的 AI 科技生态？

杨植麟：生态有可能不一样，如果你是从产品和商业化角度。但从技术角度，通用能力不会是完全不同的技术路线，基础通用能力肯定会差不多。但因为 AGI 空间很大，在通用能力基础上去有差异化，这个更可能发生。

腾讯新闻《潜望》：硅谷一直有一个争论：onemodelrulesall还是many specialized (smaller) models（一个通用模型来处理各种任务，还是采用许多专门的较小模型来处理特定任务），你怎么看？

杨植麟：我的观点是第一个。

腾讯新闻《潜望》：在这一点上，中美会呈现巨大不同吗？

杨植麟：我觉得最终不会。

07 我接受有失败的概率：「它已经改变了我的生命」

腾讯新闻《潜望》：大模型创业在中国是比较怪异的存在，你们融了这么多钱，但似乎一大笔钱都要花在做科学实验上，这种情况下怎么说服投资人愿意掏钱？

杨植麟：跟在美国没有区别。我们今天拿到的钱还不算特别多。所以，我们还要更多向 OpenAI 学习。

腾讯新闻《潜望》：我想知道做到 GPT-4 还需要多少钱？做到 Sora还需要多少钱？

杨植麟：GPT-4 和 Sora 都不需要那么多，现在的钱更多是为了下一代甚至下下代模型做储备，做前沿探索。

腾讯新闻《潜望》：中国大模型创业公司虽然拿了巨头的钱，但巨头也在训练自己的模型——你怎么看大模型创业公司和巨头的关系？

杨植麟：这里面有竞争，也有合作。巨头和创业公司第一目标不一样，今天你去看每个大厂的第一目标，跟 AGI 公司的第一目标不同。第一目标会影响动作、结果，最终在生态里是不同的关系。

腾讯新闻《潜望》：为什么巨头同时对多家大模型公司投入一点钱，而不重注一家公司？

杨植麟：这是阶段问题。下面会有更多的 consolidation（资源整合），会有更少的公司。

腾讯新闻《潜望》：有人说大模型公司的终局是被巨头收购，你认可吗？

杨植麟：我觉得不一定，但是他们有可能有很深入合作关系。

腾讯新闻《潜望》：比如说，可以怎么合作？

杨植麟：OpenAI 和微软就是典型合作模式，这里面很多可以参考，也有一些可以优化。

腾讯新闻《潜望》：过去一年，在你看来创业中的曲折体现在了哪？

杨植麟：外部变量很多——资本、人才、卡、产品、研发、技术。有高光时刻，也有困难要克服。比如说卡。

中间有很多 back and forth（来回）。一段时间很紧张，一段时间供应变好。最夸张的是，有一段时间每天在变，今天一台机器价格 260，明天 340 了，过两天又跌回来，是一个动态变化的过程。要对这件事密切关注。价格一直变，策略也要一直变，到底从什么渠道，买还是租，有很多不同选择。

腾讯新闻《潜望》：这个动态因素是受什么影响？

杨植麟：有 geo-political（地缘政治）原因，生产本身有批次，也受市场情绪变化。我们观察到很多公司开始退卡，他们发现自己不一定要训这个模型。市场情绪和大家的决策变化，供求关系跟着变化。好消息是，最近整个市场供应好了非常多。我个人判断至少在接下来一到两年，卡不会成为很大瓶颈。

腾讯新闻《潜望》：你似乎一直在思考组织，在团队构建上是怎么做的？

杨植麟：招人思路发生过一些变化。世界上 AGI 人才非常有限，有经验的人很少。我们最早期的画像是，专注找对口的 genius（天才）。这个证明非常成功。之前有对模型动手术的能力，有训练超大规模模型直接的经验，就可以很快做出来。包括 Kimi 发布，资本效率和组织效率其实很高。

腾讯新闻《潜望》：花了多少钱？

杨植麟：一个挺小的数，相比很多其他花费，是花小钱办大事。我们很长一段时间是 30-40 人的状态。现在 80 人。我们追求人才密度。

人才画像后来发生了变化。最早期招 genius，认为他的上限高，公司上限是由人的上限决定的。但后面我们补齐了更多维度的人——产品运营侧的人，leader 型的人，能把事情做到极致的人。现在是一个更完整、有韧性、能打仗的团队。

腾讯新闻《潜望》：在中国大模型创业一年，怎么评价现在取得的阶段性成果？

杨植麟：造了一个火箭的原型，现在点火试飞。积累了一个团队，弄清楚了一些燃料的配方，多多少少还能看到一个 PMF 的雏形。

可以说，登月走了第一步。

腾讯新闻《潜望》：你怎么看杨立昆说，他不看好现有技术路线，认为自监督的语言模型没办法习得真正世界的知识，随着模型规模的扩大出现谬误，也就是机器幻觉的几率会越来越高。他提出了「世界模型」的观点。

杨植麟：没有本质瓶颈。当 token space 足够大，变成一个新型计算机解决通用性问题就 OK 了，它就是一个通用世界模型。

（他这么说）很重要一点在于，大家都能看到现在的局限性。但解决方式并不一定需要全新框架。AI 唯一 work 就是 next token prediction + scaling law，只要 token 足够完整，都是可以做的。当然今天他指出的问题存在，但这些问题就是你把 token space 变得很通用，就可以了。

腾讯新闻《潜望》：他是放大了局限性。

杨植麟：我觉得是。但底层第一性原理没什么问题，只是说现在有些小技术问题没解决。

腾讯新闻《潜望》：你怎么看 Geoffrey Hinton（深度学习之父）一而再、再而三呼吁 AI Safety 的问题？

杨植麟：Safety 反而表明了，他对接下来技术能力的提升有极大信心。他们是相反的。

腾讯新闻《潜望》：幻觉的问题怎么解决？

杨植麟：还是 scaling law，就是 scale 的是不一样的东西。

腾讯新闻《潜望》：有多大概率scaling law走到最后发现根本走不通？

杨植麟：可能约等于 0。

腾讯新闻《潜望》：怎么看你的CMU 校友陆奇的观点：OpenAI 未来肯定比 Google 大，只不过是大一倍、五倍还是十倍的问题？

杨植麟：未来最成功的 AGI 公司肯定是会比现在所有公司都大。这点没有疑问，它最终可能是 double、triple GPT 的事。它不一定是 OpenAI，有可能是别的公司，但肯定有这样的公司。

腾讯新闻《潜望》：如果你恰巧成了这家 AI 帝国的 CEO，你会做什么用以保护人类吗？

杨植麟：现在想这个问题还缺少一些前提条件。但我们肯定愿意跟社会不同角色去合作和提升，包括在模型上有更多安全措施。

腾讯新闻《潜望》：你 2024 年的目标是什么？

杨植麟：第一是技术突破，我们现在应该能做出比 2023 年好得多的模型。第二是用户和产品，希望有更多成规模的用户和黏性。

腾讯新闻《潜望》：2024 年对于全球大模型产业有哪些预测？

杨植麟：今年还会有更多 capability 出现，但格局不会跟今天有太大差别，top 这几个还是会领先。在能力上应该今年下半年会有一些比较大的突破，很多会来自 OpenAI，它肯定还有下一代模型——有可能是 4.5，也有可能是 5，感觉是大概率事件。视频的生成模型肯定还能继续 scale。

腾讯新闻《潜望》：2024 年对于国产大模型产业有哪些预测？

杨植麟：一是可以看到新的独特能力产生。你会看到国产模型，因为前期的投入，有合适的团队，做出世界领先的某一些维度的能力。二是会出现更多用户量级更大的产品，这是大概率的。三是会有进一步的 consolidation 和路线选择的分化。

腾讯新闻《潜望》：创业你最害怕的一件事情是什么？

杨植麟：还好，就是要无所（畏惧）往前冲啊。

腾讯新闻《潜望》：想对同行说什么？

杨植麟：一起努力。

腾讯新闻《潜望》：说一个你对于大模型行业现在还不知道但最想知道的问题。

杨植麟：我不知道 AGI 的上限是什么样的，它会产生一个什么样的公司，这个公司能产生出来什么样的产品。这是我现在最想知道的事。

腾讯新闻《潜望》：AGI 这么发展下去，你最不想看到的一件事是什么？

杨植麟：我对这个比较乐观，它可以让人类文明往下一个阶段去发展。

腾讯新闻《潜望》：有没有人评价你，太过于理想主义？

杨植麟：我们也是很脚踏实地的，我们真的也做了一些事，不是只是在说嘛。

腾讯新闻《潜望》：如果你今天拿到的钱是最后一笔钱，你会怎么花这笔钱？

杨植麟：我希望这个永远不会发生，因为我们未来还需要很多钱。

腾讯新闻《潜望》：如果你没有做成什么，会觉得自己失败了？

杨植麟：关系不是那么大，我接受有失败的概率。

这个事情它已经完全改变了我的生命，我是充满感激的。

文章来自于微信公众号 “Founder Park”，作者 “张小珺”

北大发起复现Sora，框架已搭！袁粒田永鸿领衔，AnimateDiff大神响应

关联网址

关联标签

#AI #大模型 #技术突破

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

月之暗面杨植麟专访：AI不是接下来一两年找到PMF，而是接下来十到二十年如何改变世界

01

站在开端：「要 ride the wave」

02

技术师承：「把自己从无限雕花中解放出来」

03

旧系统不适用了：「AGI 需要新的组织方式」

04

登月的第一步是长文本，第二步呢？

05

我一点也不焦虑落地：「user scaling 和 model scaling需要同时做」

06

GPT-4 还没赶上，Sora 又来了

07

我接受有失败的概率：「它已经改变了我的生命」

北大发起复现Sora，框架已搭！袁粒田永鸿领衔，AnimateDiff大神响应

AI率先解放了情感咨询的生产力

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

月之暗面杨植麟专访：AI不是接下来一两年找到PMF，而是接下来十到二十年如何改变世界

01

站在开端：「要 ride the wave」

02

技术师承：「把自己从无限雕花中解放出来」

03

旧系统不适用了：「AGI 需要新的组织方式」

04

登月的第一步是长文本，第二步呢？

05

我一点也不焦虑落地：「user scaling 和 model scaling需要同时做」

06

GPT-4 还没赶上，Sora 又来了

07

我接受有失败的概率：「它已经改变了我的生命」

北大发起复现Sora，框架已搭！袁粒田永鸿领衔，AnimateDiff大神响应

AI率先解放了情感咨询的生产力

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿