对话面壁智能李大海：Scaling Law 之外，大模型的另一条关键路径

2024-06-26 阅读 37 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

01 最懂 Agent

的大模型公司

张鹏：大海你参与到面壁智能的过程还挺有意思的。我记得你在知乎的时候推动和主导了对于面壁的投资。然后去做 CEO，最近是 all in 了，真正变成了创业者的姿态。能不能分享一下走来的心路历程？

李大海：过去一年非常兴奋。

23 年 3、4 月份，我在知乎内部推动了对面壁智能天使轮的独家投资。投资以后我们跟面壁有非常深度的合作，合作过程中我觉得被时代感召了，真的非常兴奋，觉得是时代的馈赠。作为一个资深工程师，还有机会在当打之年有一个非常大的历史性的变革出现。经过一段时间的考虑和挣扎，决定要 all in 到以大语言模型为代表的 AGI 赛道。

有一件很有意思的事，我在正式决定加入之前，跟面壁的核心同学都做了一次沟通，我就问了每个人一句话，你们相不相信 AGI？面壁智能是不是要做 AGI？

张鹏：你上来先做一个信仰考验是吧？

李大海：要对齐一下共识。得到的答案都是肯定的，所以才有更进一步的合作。

张鹏：本质还是因为觉得 AGI 这个浪潮，里面一定蕴含了很多让人兴奋的改变。倒不是因为看到了一个什么样的新产品，或者一个新的商业价值。

李大海：是的，从去年开始，我就有一个非常清晰且固执的认知，我认为到达 AGI 一定是一场马拉松。所以在决定投身到 AGI 大方向的时候，想的是我们怎么做出有价值的工作，能够在通向马拉松终点的时候有自己的一个位置。

张鹏：去年那会儿你已经是面壁的 CEO，我们聊的时候，你跟我一直在聊的是 Agent 这件事。我当时感觉，大海可能要做一个 Agent 的公司。你身边朋友也会问到这个问题，你到底是做 Agent 的公司，还是大模型的公司？今天你肯定会有一个清晰的定义。

李大海：其实一直都是非常清晰的。我们公司的英文名字 ModelBest，名字倒一下顺序其实就是 Best Model。公司成立的第一天，我们目标就是要做最好的大模型。一个朋友对我们的定义我觉得比较恰当，他们认为面壁智能是最懂 Agent 的大模型公司，我们本质是大模型公司，Agent 和在 21、22 年最早做的 Infra，其实都是为了把大模型做好，所建立的能力。

张鹏：为什么会有这么一个定义，最懂 Agent 的大模型公司。为什么最懂 Agent 重要？确实早期咱们聊的时候，你对 Agent 的想法给了我很多启发，为什么会从 Agent 这个视角来去看？

李大海：上周智源大会上，大家问了一个问题，Scaling Law 是不是通向 AGI 的路径。这两个问题是相关的，我们为什么认为 Agent 技术重要呢？在我看来，现在大模型作为知识压缩，主要是处理人的大脑系统一的工作。（来自《思考快与慢》，系统一是一种快速、直觉、自动的思维方式，系统二是一种缓慢、逻辑、努力的思维方式。）系统二的能力是未来大模型通过 Agent 技术外部化或者把它内化为自己的能力。

大语言模型技术代表我们能够去构建最好的系统一。但是 Agent 技术，不管是外化的 Agent 技术，还是 Agent 技术未来内化到大模型里面去，这个技术形成系统二。跟大语言模型结合到一起，能够更好地到达 AGI 最终的目标。我个人认为，Agent 技术本身非常重要。

张鹏：所以模型是它的底层，但是要想 AGI 在通用的更多领域发挥价值，Agent 这一层非常重要，最终要把两个词连一起。

李大海：人之所以为人，除了有负责逻辑的大脑之外，还需要有记忆，有直觉，逻辑之外的东西，所有这些功能结合在一起才是个完整的智能体。

张鹏：就是说模型光有很强的推理能力还不够，还需要有其他的能力才能最终变成一个更通用的智能。

李大海：现在我们在做的大模型训练的工作，本质上都是把各种困难的事情变成系统一的工作，但系统二的工作永远是需要的。

02 端侧模型是

无处不在的智能私人管家

张鹏：模型也分很多类，云端的，端侧的，你自己经常聊到端侧有更大的重要性在今天凸显。通向 AGI 的梦想，总要找一个自己的定位，肯定不是一上来就对标 OpenAI。肯定要找一个自己对产业的价值，你怎么定义自己的价值？为什么端侧这件事变得更重要？

李大海：在过去的发展历程中，我们一直都非常注重效率。当我们要贴标签，让大家认识到面壁智能的特点的时候，我们的定义是高效，用更小的参数、更高的效率、更低的成本，实现更好的智能，这是面壁在行业里面的一个价值。回到大模型上，我们一直在讲端侧，其实我们想把大模型放到离用户最近的地方，才是本质。

张鹏：端侧目前是按照云和端这么划分，本质上端离用户更近。

李大海：端离用户更近，我们放到端上。未来也许还会出现云、边、端，我们把它放到边上也有可能。

张鹏：边上就比如说我家里有个私人服务器。所以要做到离用户更近这件事儿，到底难在哪儿？跟云端这种看起来很高智能的，很高推理的模型，有什么区别吗？

李大海：在内部，我们把云上的模型跟端侧——离用户更近的模型，抽象上讲，称为无所不能的智能和无所不在的智能。云上的智能，未来一定是无所不能，在任何一个领域都比人类专家还要厉害。无所不在的智能，需要跟环境有深度的互动，需要对用户隐私有深度的掌握。在隐私和对环境互动的连续性上，无所不在的端侧智能一定比无所不能的云上智能要强。

端侧模型，除了好之外，还需要克服能耗的限制，在足够小的参数下，做到大部分日常工作。挑战其实非常大，甚至从某种角度上来讲，可能比云端的模型的挑战还要大。

张鹏：听起来如果类比成人，云端无所不能，那就是一个我很敬仰的人，端侧是一个我很信任的人。可以这么理解吗？

李大海：对，更像是一个私人管家，你把所有的信息都毫无保留地交给他，因为他是专门为你而生的。

张鹏：有意思的定位，我觉得类比到人类世界就很好理解，我信任你，才可以在一起，不说话我们也很开心。

03 2026 年推出

GPT-4 能力的端侧模型

张鹏：我觉得还是要回到原点，既然要做一个创业公司，当你决心要全身心投入的时候，这个产业里面大模型公司已经很多了，海外有很强力的创业公司，国内也有不少的创业者拿了很多投资，而且没有一家巨头会放弃 AI。你会不会觉得，等你真正投身其中的时候，时间已经比较靠后了。这么大的一个画卷，是不是已经被占的差不多了，你是否会有这种顾虑？

李大海：首先，我自己完全没有这个顾虑，在我看来 AGI 这条赛道才刚刚开始，我会把这个广阔的空间比喻为我们的国画，就像千里江山图那样横轴徐徐展开的状态。它不像是西方的油画，往往会非常具体地给出一个近景画面。我们的 AGI 画幅还在非常早期的状态徐徐展开着，每一个立志于做好 AI 创业的创业者，在这个画卷里面都可以找到自己的一个方向。

对话面壁智能李大海：Scaling Law 之外，大模型的另一条关键路径

对于面壁智能来讲，我们看到的是大语言模型本身。我们在最近提出了「大模型的摩尔定律」，即大模型的知识密度，每 8 个月会翻一番，这句话怎么理解呢？同样水平的模型过 8 个月后，它的参数量可以少一半。这个规律其实是过去几年整个行业里真实发生的事，包括我们自己做的模型、OpenAI 的模型，都在发生这样的变化，我们只是把这个规律提出来。

在我们抓住了这样第一性的变化后，我们才会想怎么把它放到端上。这种第一性原理上的思考，对于我们把工作做好，吸引到更多的资源肯定是有帮助的。

张鹏：你刚才那个国画和油画的比喻还挺形象。之前 Sam Altman 提出了智能摩尔定律，指的是多长时间内，智能的水平往上提，成本往下降。但你刚才选的另一个角度是，在同等参数大小下，智能应该更高，这是理解智能密度的核心，我们为什么要关注智能密度呢？

李大海：智能密度其实很像半导体的发展，半导体里面有大家现在都很熟悉的词叫制程。制程越高，能耗越低，能生产出来的芯片的水平越高，竞争力越强。智能密度某种程度上来讲就是大模型的制程，大模型的制程越高，它就在同等参数的水平下，表现出越高的智能水平，以及在同等智能水平下，用越低的能耗去完成同样的工作。

越低的能耗就代表着，一个原来不能在手机、眼镜这种非常严苛的终端上运行的模型，随着能耗降低就得以运行。我们合理推测，面壁智能在 2026 年年底，就可以做到 GPT-4 水平的端侧模型。

张鹏：这是你已经明确的目标吗？

李大海：这是我们明确的目标，实现这个目标我们也需要端侧芯片的水平不断提高。

我们看到的是两个摩尔定律的影响，第一个就是传统的摩尔定律，每隔 18 个月芯片的算力会翻一番，这个定律现在其实还在加速了，在端侧也在不断的加强。而我们看到的大模型参数的摩尔定律，我们自己现在把它叫做「面壁定律」——，在这个定律里，大模型的智能密度在每 8 个月翻一倍。所以这两个定律结合在一起，我们相信 2026 年年底是能够实现目标的。

04 数据质量和算法

比单纯 Scale 更重要

张鹏：最近我好像听到你们在开源社区里有一些进展，发布了一个叫小钢炮的模型，小钢炮实际效果怎么样，你们怎么定义它推出后的目标呢？

李大海：我们在今年 2 月份的时候，开始推出面壁小钢炮系列的端侧模型，在 2 月 1 日发了第一版，4 月发了第二版，5 月发了 2.5 的版本，预期会在 7 月份再发 3.0 的版本也在路上。

我们在 2.5 这个版本上，以 1% 的参数规模，形成了可以跟去年 GPT-4V 和 Gemini Pro 的多模态能力对标的一个模型，这个模型只有 8B 大小，但是它能够放到终端上，并且有非常出色的多模态能力，所以在国际上比较受欢迎，在 5 月底的时候还因为被几个斯坦福本科生做了套壳的事情意外走红。

这个模型之所以这么受欢迎，是因为它填补了一个空白：在很小的模型上去实现强大的多模态能力。这是我们首先做到的，做到以后就很受整个社区的欢迎。我觉得这进一步证明了我的看法，模型跟产品必须是一体的，我们未来要做的就是把大模型放到了离用户更近的地方，模型能力就是产品能力，要做的产品最终也必须要映射到模型能力上。

张鹏：我很好奇，你选择了这个方向和目标，一定看到了可以去持续优化它的方法，就包括你提到的「面壁定律」，背后一定是有一个方法，怎么能够让它在端侧做到越来越高的知识密度、智能密度，这里核心的要点是什么？

李大海：还是要回到我们对于 Scaling Law 的理解，OpenAI 跟 DeepMind 指出 Scaling Law 后，他们把 Scaling Law 的重点放在了模型参数、数据量和对应投入的训练算力这三个维度上。但是我们看到的是，这三个维度之外，还有两个因素非常重要，一个是数据质量，一个是算法。

大家现在强调 Scaling Law 时候，强调往上 Scale 这件事情，是因为往上 Scale 要求的能力维度，是无限的投资源，可以把它简单理解为一个资源游戏。

但是在我们看来，在终端这样的场景下，算力、功耗、能耗是不允许无脑投资源的。所以在这个场景里，我们要考虑怎样去加入更多高质量的训练数据，通过合成数据的方法，以足够多的、教科书级别的数据来做模型训练。

再一个是更加精细的模型训练。它有点像用 AI 来「更精细」教小朋友学习，三年前、五年前，1 个老师配 50 个学生，讲同样的教材但没法因人施教。用 AI 来教学的话，AI 可以更好地去理解每一个学生，他掌握知识好和薄弱的地方，针对薄弱的地方做定向的增强，我们也可以用同样的方法来训练 AI。

所以训练 AI 的时候不应该是一个一成不变的方法，我们在训练小钢炮 1.0 的时候，就提出了一种全新的学习率调度器（WSD），动态地去针对模型的不同阶段，用不同的方法、不同的参数来训练模型。这种方法取得了很好的效果，我们在 1.0 的模型上，用了 1T 的精选数据，早一点的 Mistral AI 的 Mistral-7B 的模型，有传言他们用了 8T 的 Token 做训练，最后我们模型的效果比他们还更好一些，这让我们在训练效率方面，还是挺有自信的。

张鹏：果然是，我觉得创业者如果有目标的创新，就有机会长出方法的创新，和能力的创新。所以我还是非常相信，从创业创新的角度，终极还是在目标上，定义完目标，往往才有机会。

05 离用户更近需要

模型实现「三位一体」

张鹏：作为创业公司，今天的资本环境、创业环境，要求公司不能只是对梦想做长期持续的投入，你中间总要有产品、商业循环。你怎么想这个问题？你们的产品未来会是什么样的闭环？

李大海：我们特别关注商业落地这件事。因为，既然是马拉松这么长的一个旅程，我们可能就得考虑自带干粮。你很难通过短跑冲刺的方式去跑整个马拉松。去年的时候，我们就在以积攒 know-how 的方式去广泛、高效地探索大模型落地的各种途径，我们尝试过服务大 B，尝试过 2B、2C。

张鹏：这么快？一年时间全摸了一遍？

李大海：是的，非常高效率，而且涉及领域多，金融、营销、法律、内容都有过落地。所以今年我们重点聚焦到端侧，一方面因为确实看到了端侧离用户最近，另一方面也是觉得端侧是落地起来更具象化、更现实的途径。所以这一块上我们有很多动作，后面有进展也会跟大家同步。

张鹏：前面讲到端侧模型离用户更近，我能理解，离用户越近越能创造价值，核心是看产品和商业模式怎么设定。但另一方面，最近苹果也在它的生态里把 AI 当成一个核心重点去推动。如果追求离用户更近，那岂不是像苹果这样的公司更能离用户更近？当既看到这个方向是被认可的，但同时也有巨头在前面，这个事怎么办呢？

李大海：其实整个生态还是一个不断往前发展的状态。我觉得苹果在 WWDC 上的战略，印证了我们在战略上的前瞻看法，我们是今年年初的时候就非常坚定地看到了端侧的机会和重要性。

其实不光苹果，还有 Google 和微软，它们也在今年三四月份发布了端侧的一些产品。大家会发现这些公司都是自带生态的，因为有生态，所以需要端侧能力去给自己的生态拼图做好拼接。我们作为创业公司，首先一定是先服务好国内有类似生态的公司，通过 2B2C 的方式，让他们的用户能感受到价值。同时我们也会寻找自己的场景，这是两条腿走路的过程。

张鹏：其实我很关心，「离用户更近」这件事非常诱人，不管有没有巨头在前面，未来可能还会有新的玩家会出现，我们需要核心思考的是，如何才能离用户更近？

昨天我也在说，未来会有一个「以人为中心」的趋势，不再以机器为中心。那你今天说要离人更近，顺着这个趋势，你在这方面有哪些面向未来的思考？有哪些新的原则，新的可能性，会在「离人更近」的进程中，成为很重要的方法？

李大海：第一，想要离人更近需要分享尽可能多的上下文，就是 shared context。只有在跟用户沟通交流的过程中，建立足够多的共识和上下文，才能更好地为他服务，或者说更懂用户。

我们在 AI 1.0 时代其实就已经看到了它的威力，AI 1.0 时代最成功的应用是推荐，推荐能做好，主要原因就是它做到了千人千面。大模型领域里，今天大家还在卷「怎么把大模型这个统⼀的智能，做到用户可以接受的程度」，但接下来，「怎么把统一的智能跟每个人独特的地方结合在⼀起」，是更重要的方向。

对话面壁智能李大海：Scaling Law 之外，大模型的另一条关键路径

第二个点，未来我们端侧的模型，一定要能实现「三位一体」，即感知、决策、行为的三位体，就像人一样。就像我们在沟通的时候，如果我讲话题，发现大家都在打哈欠，那我感知到的就是大家不感兴趣，我就会做个决策，赶紧切换话题。我的行为就是做调整。一个能放到终端上的「三位一体」的模型能力是非常重要的。

我认为，要给用户创造价值，把模型真正放到离用户最近的地方去，必须要做到这两点。

张鹏：听起来让人兴奋，因为今天还没有任何人真正把它做到。听到你几个明确的目标，包括 26 年要在端侧实现 GPT-4 水平的模型，以及刚才说到的，智能的密度和面壁定律，我希望未来真的可以让我们看到面壁定律，就是每 8 个月会怎么样。

李大海：对，面壁定律其实是我们对于行业规律的一个提取。我们也希望跟行业一起来完成这样一个定律。回想当年，摩尔提出摩尔定律的时候，当时他的描述是每两年翻一番，在行业的共同努力下，变成了 18 个月。当我们看端侧，这个速度现在还在加速。所以我们很期待，能跟所有的从业者一起，完成面壁定律在未来若干年的持续进化。

张鹏：对，而且你刚才也提到了，这件事不光靠面壁自己，芯片其实也在快速发展，这可能都是利好的消息。

李大海：对，现在就像一个千里江山图在徐徐展开，它代表了「生态里不同企业需要紧密合作」的现状。我们最近也刚刚跟华为云达成了一个「端云协同」的合作，就是我们来做端侧模型，华为云提供云端模型，协同合作。同时我们也在跟很多芯片厂商深度合作，让面壁小钢炮在不同芯片上充分利用芯片算力，同时让能耗足够低，这些都是为了推动「把大模型放到离用户最近的地方」，过程中一些必要的工作。

张鹏：在端侧如果有更强的能力，就会有更多创新因它而诞生、展开。

文章来源于“Founder Park”，作者“Founder Park”

AI Hackathon 群像：死磕应用真问题

关联网址

关联标签

#AI #大模型 #面壁智能

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

对话面壁智能李大海：Scaling Law 之外，大模型的另一条关键路径

01

最懂 Agent

02

端侧模型是

03

2026 年推出

04

数据质量和算法

05

离用户更近需要

模型实现「三位一体」

AI Hackathon 群像：死磕应用真问题

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

对话面壁智能李大海：Scaling Law 之外，大模型的另一条关键路径

01

最懂 Agent

02

端侧模型是

03

2026 年推出

04

数据质量和算法

05

离用户更近需要

模型实现「三位一体」

AI Hackathon 群像：死磕应用真问题

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿