「Scaling Law is not enough,虽然有红利,但并不能通往真正的 AGI。」

「潜水」三年后的漆远,对于 AGI 的发展有自己不一样的观点。他认为,AGI 的最高目标之一就是通过人工智能发现复杂世界的未知规律,当前大模型都高度依赖于数据,而未知规律恰恰缺乏数据支撑。

2021 年底,时任蚂蚁集团副总裁、首席 AI 科学家、达摩院金融智能负责人的漆远重返学界,任复旦大学浩清特聘教授。2023 年,上海科学智能研究院成立,漆远担任担任院长,推进知识与数据结合的 AI for Science 原始创新。

同时,漆远也是可信大模型公司无限光年的创始人,打造可信垂直领域大模型,把神经网络与符号计算结合构建「灰盒」大模型减少幻觉,深耕场景释放垂直领域大模型生产力。

  • AGI 的标准到底应该是什么?

  • 为什么说 Scaling Law 还不足够?

  • 为什么说 AGI 的标准之一是打造「AI 爱因斯坦」?

  • 为什么我们需要「灰盒大模型」?

关于这些问题,7 月 1 日,在 Founder Park 视频号直播间,极客公园创始人&总裁张鹏与漆远进行了一场久违的聊天,从工业界和学术界的不同角度聊了聊 AGI 的落地和未来。

文章内容基于本次直播整理。

嘉宾介绍:

漆远:复旦大学教授、上海科学智能研究院院长、无限光年创始人。

01 

ChatGPT 之前

大家对于 Scaling Law 的想象太有限

张鹏:大概是五年前,漆远老师在极客公园成都的活动上讲AI,讲得特别好,当时漆远老师还在蚂蚁集团,那次大会上我们相谈甚欢。但过去三年他突然在我的时间线里消失了,也不太出来讲东西,后来我了解到漆远老师回到大学了,同时也在做一些创业的项目,主体还是顺着 AI 这条线。

尤其是在过去两年,我们看到大模型带来的变化之后,漆远老师潜水三年,终于要浮上水面了。今天,大家来一起围观潜水三年的漆远老师,带着非共识的观点,讲讲他的 AGI 世界观。漆远老师先给我们介绍一下你之前的经历以及近三年你都干了什么?

漆远:我之前在大学做老师,2014 年回国之后在阿里巴巴和蚂蚁工作,三年前回到大学也是向过去致敬。其实我离开工业界,又回到学术界,又再次创业,都是不同的感觉,人生处处有惊喜。

在大厂里工作是带了一个非常大的团队,之前有幸在阿里、蚂蚁参与了那个波澜壮阔的过程,看到团队从 0 到 1 长起来。我一直很喜欢人工智能,它可以解决没解决的问题。

在四五年前的一次采访中,讲到最高级的人工智能的一个标准是什么?我说是人工智能的爱因斯坦。如果想用人工智能来解决科学问题的话,那我就要先找到有好的科学家的地方,所以三年前我来到了复旦大学。因为高校都面临算力的挑战,所以到了复旦之后做的第一件事就是:在学校领导的支持之下,构建了当时国内高校最大智算平台 CFFF,推动了 AI for Science 的工作。紧接着 AlphaFold3 和 ChatGPT 出来了,可以说一个更大的人工智能浪潮又出来了。

这时候我们希望有组织地去做科研,去年,有幸推动了上海科学智能研究院的成立。只做这个还不够,科研能不能落地呢?这就是无限光年这家公司成立的意义,希望做为一个样本把技术产品变成落地。这大概就是我过去三年做的一些事,打造了一个智算集群,推动了一家研究院的成立,创建了一家公司。

张鹏:你这三年虽然在潜水,但我觉得你游出去挺远的,在学界帮他们解决一些基础设施的问题,然后在工业界也在做 grounding,也做了公司,最终把学术的东西在工业界做 grounding。

我其实挺好奇的,你之前在阿里的时候属于前 ChatGPT 时代、前大模型时代,最近这几年 ChatGPT 突然横空出世,顺着 Transformer 大语言模型,变出来今天这样的一波浪潮,你这样一个学术血统纯正的人经历了什么样的心理活动?

漆远:在 ChatGPT 刚出来的时候,我觉得越是 AI 领域的专业人士的人,对 ChatGPT 的表现越吃惊。以前在大公司里,当时也会关注 GPT-1、GPT-2,大家都研究,同时也在做这种大模型。但是当 ChatGPT 真正出来的时候,我觉得是超出了预期的。大家没想到参数大了之后,能看到这么好的、超出我们期望的产品。

去年 4 月,微软发了一篇文章,叫《Sparks of Artificial General Intelligence: Early experiments with GPT-4》,就是说 AGI 的火花。五六年前的人工智能大会上,有一个采访,问大家认为 AGI 还有多少年要出现?大部分人都认为是 5 年,有的认为是 10 年或者 50 年。总之都认为都是很遥遥无期的事,有的人甚至认为永远都不会实现。

ChatGPT 出现之后,如果再问这个问题,大家会认为 AGI 来临的时间会比以前想象的近了很多。这个可以说是一个普遍的共识。甚至这个话题都破圈了,以前还只是技术圈,现在每个行业都非常关心。

同时,我内心也在想:我们当年做 AI 模型为什么没有做到这么大的程度?再往底层想,为什么当年再往前走一步的时候,我却停在了这里?

张鹏:是不是贫穷限制了自己的想象?因为 OpenAI 确实是在这方面投了很多钱才有 Scaling Law 出来。

漆远:其实整个大学里都是缺算力的,但是今天高校已经意识到这个问题了,正在积极布局往前走。

回到 Scaling Law,2015 年我刚从美国回来的时候,做的第一个项目其实就是一个基于 Scaling Law 的项目,印象特别深。当时是关于我们的核心广告系统。大家都知道,广告业务系统是互联网公司的核心利润来源之一,当时的模型参数是 200 万左右,在那个时间点,我们提出要做 2 亿参数,100 倍的提升,要把这个数据规模从 14 天的数据变成半年的数据,数据特征也会大规模增加。所以当时我向阿里集团要了几千台服务器,掀起了轩然大波。

最后,公司还是相信这件事,投入了相关的计算资源,拿到了非常好的效果。我们当时的确看到了 Scaling Law 的好处:模型参数百倍的增加之后,整体效果得到了突飞猛进的提升。但当时没有想到的是,上亿还是不够,要更大,走向百亿、千亿,甚至是万亿。

即使在工业界,我们也觉得这会带来非常高的成本,学界肯定面临更大的挑战。高校要解决各种各样的科学问题,比如要做气象预测、分析蛋白质的运动、分析材料的新设计,这背后都是 AI 计算问题。有很多这类领域还缺乏好的算力支持的人工智能大模型。

张鹏:其实你当年是尝到过 Scaling Law 带来的甜头的,只不过今天 Scaling Law 又放大了很多个数量级,当年是上升一个数量级就能看到很好的结果,这还真不是贫穷限制想象的问题,你都没法想象说放大几个数量级之后会怎么样,可能就需要一些很疯狂的人在这里去尝试。

漆远:对,这样的尝试是非常好的,我刚才讲工业界的例子,我们尝到了 Scaling Law 的好处。我也可以举一个不太成功的例子。

差不多 2009 年的时候,我在美国做教授,当时和材料科学领域非常出名的教授 Gerbrand Ceder 合作,用机器学习预测晶体的结构和性质,然后去做材料设计。在那个时间点,这个想法是非常棒的,也获得了科研资助。但是最终,我们并没有拿到真正突破性、划时代性的工作成果。今天回头来看就是因为没有真正的把规模做起来,其实当年我们在高校里面也用了 CPU,并且还是用当时美国高校最大的 机群设计了分布式 MPI 算法来实现我们的 AI 算法。但是和今天的大算力比起来,还是小巫见大巫,所以当时就没有真正的跑起来。

张鹏:其实在那个时候,整个产业的共识是很难想到要放大这么多个数量级的 scaling,放大一个数量级这个事还能可以想象,当时在蚂蚁,在阿里还是能支持尝试的,但那个时候说要放大这么多个数量级,搞到千亿参数,这个倒是很难想象。

我们作为普通人,看到这一波技术变化都觉得非常兴奋,对未来比较期待,甚至我都觉得在这波之前,是你比谁都信AI,今天是好多人比你信 AI,反而是像你们这样的学者会觉得不行,因为其实今天还有好多事 AI 干不了。

你这三年经历了创业,同时在学界也有一些不同的观点。有没有在这一波技术变革里找到一些自己的新的目标、方向、使命?

漆远:一开始的话是怕退休太早不利于健康,觉得要找点有意思的事情做。当时就是从这个角度出发,先做了 CFFF 智算平台,推动了高校里相关 AI for Science 的科研,后来 ChatGPT 出来之后其实有点焦虑。作为一个多年的 AI 研究者,突然觉得这事不能跟我没关系,但创业做了大模型后也焦虑。

我之前是老师,同时也是工程师。一旦开始创业后,视角和以前是不一样的,既关心技术,又关心市场,不能只看一个点,而是一个系统化、结构化的思考,比以前更复杂。我还推动成立了一个研究院,这也是一个新尝试。我希望能够像打坐一样,看着思绪纷飞,但能够平静下来,把真正好的科研能做下去,比如说在气象预报、蛋白的不同尺度上对物理世界垂直尺度的构建做出来;同时另一方面又希望能有真正的产品落地,希望技术本身可以变成一个产品。做产品的时候其实是很容易焦虑的,大家会想,技术本身是不是在走向真正的市场?技术本身是不是在走向 AGI 本身?这两个角度都是我非常关心的。

一个是从技术人员的角度,从教授的角度关心我们这条路是否走得通,如果这条路走不通,遵循现在讲的第一性原理,那就耽误事了。归根结底,今天不是简单地说产品到市场的问题,而是首先要看底层逻辑、技术本身是不是把这个产品能走向你要走的地方。

张鹏:有人说科研很难,商业化也很难,两个是不一样的,结果发现你还是既要又要,你既要技术能通向 AGI,又要这个技术在市场上能创造价值,当然确实背景既是学界背景,又在工业界里有过很多年的经验,我能理解你为什么既要又要,但这事确实挺难。

漆远:今天社会需要的不仅是理论文章的发表或者商业模式的创新,而是科技创新与产业创新深度融合,是基于第一性原理的突破。这两个结合不容易,但是可以游到海水更蓝的地方。

02 

AGI 应该是「AI 的爱因斯坦」

张鹏:我们先从一个简单点的问题开始,你怎么定义 AGI?因为现在对于 AGI,1000 个人有 1000 个说法,王小川前两天在我们的 AGI 大会上定义说他心中的 AGI 就是能出现一个 AI 医生,能像最优秀的医生一样给人类把病看好了,当然这个不一定严谨,但它很具象。

漆远:对于 AGI,每个人都会有不同想法,可以是最好的医生,可以是最好的律师。我首先是个科学家,然后是个工程师。从科学家的角度,我认为 AGI 最好的标准就是打造人工智能的爱因斯坦,发现复杂世界的未知规律,其实我五六年前在电视节目中就有说过这个观点。

首先,今天大模型都靠海量数据来做,海量数据是互联网的一个压缩,但是爱因斯坦当时其实是通过几个关键的数据点,就看到了所谓 20 世纪初物理学的乌云。然后他会自己产生假设的数据,爱因斯坦说:我假如骑在光上会看到什么?就像今天的一个大模型,这个数据可以是大模型自动产生的,然后再用合成数据来提升大模型。从某种角度来说,爱因斯坦是自己合成了新的数据帮助他提出新的理论。

张鹏:这属于一种合成数据,是吧?这个想法我还是我觉得有道理,我们的想象可以理解为是一种合成数据,我们提出了对应的问题,然后顺着这个问题思考观测、总结规律,而这个事是我没有办法在历史经验里看到的,所以我只能靠想象。

漆远:因为是未知的规律,当然就会数据少或者只有一些可能的数据来支撑它。从数据的角度而言,相比牛顿提出万有引力定律,爱因斯坦提出相对论是更难的,因为他可以观测到的用于相对论的数据更少。就像深度学习是对已有数据的拟合,并不擅长对数据之外的外插推演,更不擅长多步的逻辑推演。而爱因斯坦结合很有限的物理数据、自己的「合成数据」(他在大脑里想如果一个人坐在光上会看到什么样的世界)和黎曼几何等数学工具,提出了适用于浩渺宇宙的相对论。我认为爱因斯坦就是一个非常好的智能的标准。第一是发现理解复杂物理世界并发现未知规律。这一点是我觉得今天的 AGI 目前还没有做到的,大视觉模型 SORA 虽然说是对物理世界的模拟,其实离理解物理世界还有很大距离。

第二点是功率。一个人大脑的功率大概是 15 瓦,爱因斯坦特别聪明,算他 20 瓦、30 瓦,但是一个电灯泡就是 60 瓦,一张 H100 的 GPU 卡就是几百瓦,爱因斯坦的大脑功率远远低于一个支持训练通用大模型的千卡或万卡集群。

所以我认为,除去情感和价值观的智能,AGI 的一个简单的定义就是:人工智能的爱因斯坦。

打造人工智能的爱因斯坦也是 AI for Science(科学智能)的关键目标。我在复旦和上海科学智能研究院的长远目标就是用人工智能来理解复杂世界,发现不知道的规律,其中有的是可解释的规律,有的甚至是人类不能解释的规律。

张鹏:爱因斯坦去思考相对论的时候,人类历史上是没有相关数据的,甚至是在相当长时间之后才通过各种技术进步去做对应的观测,所以很显然它不是从哪些数据来的,它是脑子里合成数据,然后通过模拟,就形成了一个可能的逻辑。

这个逻辑结果经过很多年之后被人类有机会观测到,印证了逻辑的有效性,至少在今天我们能看到的东西是有效的,也许再放大尺度就不一定有效了。但反过来牛顿力学的数据量比较丰富,人类天天都在关注牛顿力学世界里的各种东西,我们可以基于这个去做想象推导,所以牛顿更像大语言模型,爱因斯坦更像 AGI

漆远:没错,这就是为什么我主张人工智能爱因斯坦的原因。从事后诸葛亮的角度而言,牛顿并没有用到特别复杂、精深的数学,从数学上看相对稍微容易一点。但是爱因斯坦用到了精深的数学,很多大学生不明白的数学,来推理出相对论。

这种推理能力本身也是今天大语言模型能力不足的地方,它也不是只靠数据堆就能实现。深度学习相当于归纳法,数学规则推演是演绎法。归纳是看到很多数据,然后归纳出了一个关联性;演绎法是基于一些规则推演下去。爱因斯坦要把这两方面很好地结合了在一起,而今天的大语言模型某种角度上都是在把数据做压缩归纳。我们的 AI 需要像爱因斯坦一样把归纳法和演绎法结合起来。

03 

Scaling Law is not enough

张鹏:上次聊天你的观点是 Scaling Law is not enough,有红利,但是看起来这件事好像不足以通向你说的爱因斯坦。为什么说今天大语言模型走出来的这条路通向爱因斯坦还是有局限的,到底是什么样的问题造成了你所说的这个局限,以至于你认为不能把宝都压在 Scaling Law 上。

漆远:从某种角度上讲,Scaling Law 就像牛顿。牛顿很聪明,他把很多观察的数据压缩,总结出一个规律。今天的大语言模型还不如牛顿,它的核心是预测下一个 token,简单粗略地说就是下一个词的预测。根据过去的多个词来预测下一个词,这个是概率预测。好处在于,通过海量数据的压缩,它学到了文本内在的一种结构,但如果我们想做推理,像爱因斯坦这种多步的严谨推理,那这种方法就有大问题。

第一,假设我们有一个纯概率预测模型,它的准确性为 0.9,单步、两步推理问题还不大,多推 10 步,准确率就不到 0.35,这会是个大问题。

第二,今天的大语言模型是基于 Transformer 的自回归模型,就是刚才说的用前边几个词预测下一个词。去年微软的文章《Sparks of Artificial General Intelligence: Early experiments with GPT-4》里举了一个例子,如果要写一个藏头诗,大模型可以一句一句循序写下来,然后每行的第一个字连下来又是一句很好的话,按照顺序往下走是没问题的。但是假如你让他写一首回文诗,第一句话和最后一句话正好换一换顺序,每个词都要反向对应,就像中文诗里可以看到的,这个任务就对大语言模型产生了非常大的挑战,因为它是一个从后往前走的单向架构,且不可逆。而人类的思考经常是像写古诗一样来回推敲,不是一蹴而就。从某种角度上讲,自回归的模式本身可能对智能就造成了很大的限制条件。

第三,再讲深一层,最新的一份技术报告的内容有点类似哥德尔定理,它指出,假如我们定义一个所谓的可计算函数的大语言模型,总是有一些可计算函数对这个模型是不可计算的。再怎么努力,从理论上已经被判了死刑,这样的原理性挑战,就超越了幻觉或者数据污染导致的大模型幻觉,这些都是可以靠工程力量解决的问题。就好像你把铁路修得再长,也去不了月球。

张鹏:因为它是在机制上有限制,你刚才分析爱因斯坦很重要的一点是,它需要很强的推理和逻辑,要用非常少的数据或者所谓的合成数据去想象,去推理,并且这个推理不是瞎想,它是基于非常高级的数学空间几何的东西,最后才诞生了相对论,然后人类用了几十年,通过不断成长的观测能力,反过来验证了这个理论的正确,虽然未来可能会变,但至少他领先人类 100 年把这事想出来。听起来,你心中 AGI 的爱因斯坦要做到这一点,必须要具备这种能力,但感觉这种「概率到概率」的方法不能解决你说的那个问题。

漆远:讲到爱因斯坦,他是概率-逻辑-概率相结合的一个综合系统。概率到逻辑、逻辑到概率这两块应该是在一起的,不是只有概率一块。

上星期麻省理工出了一篇文章,说语言是交流的工具,而不是思考的工具,列了很多证据。第一个是功能性磁共振成像(fMRI)。人在思考的时候,从 fMRI 上看,很多语言相关网络区域并没有被激活。同时还发现,患有严重失语症的人能运用所有形式的推理和表达。爱因斯坦其实也是很好的例子。爱因斯坦小时候会说话比较晚,但他擅长思考和推理。反过来的话,比如有脑损伤的个体,推理不行,但还能使用语言清晰表达。一个人很会表达不等同于他有优秀的思考能力。所以,把语言模型和逻辑推理结合起来,这个是非常重要的一个方向

诺贝尔经济学奖获得者卡尼曼写过一本书《思考,快与慢》。这本书讲了两类思考:快思考和慢思考。快思考就像我看到老虎,不用推理分析就会害怕想要跑开。慢思考就是假如我看到一道物理题,或者以前做机器学习,需要写好多页的公式推理,这是两类不同的能力。我认为将第一类的概率性推理与第二类的逻辑规则推理结合,是实现 AGI 的重要之路。

再从能量的角度来讲,大模型是非常耗能量的,以至于大家对可控核聚变比以前关心很多。我们都学过乘法表,它可以让我们快速根据它进行乘法运算,而不需要每次都做对应的加法,因为乘法是加法的总结。但是今天大模型的神经网络,相当于为了做一个乘法,又把对应的加法重新做了一遍。这从能耗的角度来看是一种巨大浪费。

张鹏:Scaling Law 是靠着大语言模型的超强能力让所有人认识和产生信仰的。但是大语言模型本身是个快思考,因为大语言模型学习的所有数据就是人类的语言,而不是人类的思考。

归根结底,如果人工智能只是对过去信息的压缩和解压缩,从概率到概率,这件事缺乏了慢思考的动作,而把这个动作具象一下,就是要有对规律的总结和运用,不能直接概率到概率,而是你的概率上要负载着规律,然后再到概率,这个事才变得更加有意义。

04

AI 落地需要「灰盒大模型」

张鹏:最近业界有不少人跳出来,对所谓大的超级共识提出不同观点,他们觉得,顺着 Transformer 架构和 Scaling Law 往下走就能到达 AGI 的观点有点太过乐观了。你觉得谁的观点比较有道理?

漆远:在工业界大家做的比较多的是 Transformer 架构。从技术角度,很多人都在讨论,其中比较出名的是杨立昆(Yann LeCun)。他认为世界模型不只是生成式人工智能,而且自回归模型本身存在一些根本性的局限。还包括其他人,比如之前我看到马毅老师的观点,他讲「白盒大模型」,然后还有麻省理工的 KAN 网络架构,把一个复杂的多元变量函数拆解成两层或深度的多层的单变量函数。这样的好处在于,它可以学习每个变量对最后结果的影响。相比之下,现在这种注意力机制是把变量都乘在一起的,乘完之后通过非线性的神经元后你不知道最后哪些变量对结果有什么样的影响。

但在很多情景下,比如金融、医疗应用里,建议用户如何投资,或者说诊断疾病,这需要一个投资或者诊断的思路,背后涉及到推理。

像 KAN 这样的模型尝试把大模型白盒化,让它变得可解释、可调整。或者像九十年代纯基于规则的专家系统,也是完全的白盒模型,但是专家系统的规则不能总结杂乱繁多的数据。而基于 Transformer 的大模型是黑盒,虽然可以总结海量数据但我们只能接受结果,不知道是里面的原因。

黑盒模型和白盒模型是两个极端,但世界不是只有黑和白,我们既不想完全的黑盒子,也不是所有的地方都能白盒化。举个例子,AlphaGo 下围棋的时候,它学习了人类棋谱里以前所有定式,但是在中局时机器走出了一步,震惊了所有看比赛的专家,因为从人类的思考来看,根本不应该走这步棋,这对人类是不可解释的。

尽管今天人类智能未必能解释,但是我们又希望尽量可解释,所以我提一个概念叫「灰盒大模型」,具体是白盒还是黑盒,取决于应用在哪层。比如说金融合规必须白盒化:你只能用深度学习做生成,但底层逻辑必须白盒化。逻辑必须一是一,二是二。

有些地方你可以把数据和规则推理的能力结合在一起,而不是说完全靠规则。把数据和规则放在一个技术框架上来做,这个我觉得就是所谓的灰盒化。这个观点也和我以前的科研背景相关。我以前做贝叶斯机器学习,我们对世界的认知由两部分构成,一部分是已知的规则和知识,另一部分是新看到的数据,这两个要结合在一起。

举个例子,今天说 AI for Science 里有一种做法是用人工智能加速物理公式的求解,比如求解一个偏微分 DFT 方程,取得了很大的进步,但是我个人认为这不是全部的方向。更重要的方向是把 AI 和数据结合起来,发现新的规律。假如规律不准确,数据能推翻它,但在数据不够的地方,AI 能把规则和数据结合起来,推演出后验的结论。把先验的规则知识和基于数据的深度学习有机融合在一起,会给我们「灰盒」大模型。

我认为,「灰盒」大模型会在通往 AGI 的路上发挥越来越重要的作用,因为从贝叶斯的方法论上来说,就是把我们已知的知识,和隐藏在数据中的未知信息结合在一起,来发掘新的规律。回到我们前面讲的 AI 爱因斯坦,有可能 AI 爱因斯坦也可以是 AI 巴菲特。

张鹏:工业界也在探索用 RAG 来解决幻觉问题,你这个可信大模型的技术组合,和 RAG 会有什么不同吗?

漆远 :从某种程度上讲,RAG 就是打补丁。当大模型搞不定,会从外面搜索一个文章进来,然后再补充它,但 RAG 本身也会有问题,RAG 进来了新的数据和新的幻觉的可能性。RAG 只是把一些知识给外挂了,但并不代表就从底层逻辑上解决了幻觉问题。

张鹏:大模型的黑盒,是 Transformer 造成的吗?

漆远:Transformer 是黑盒,但问题不是出在 Transformer 本身,更在于构成这个模型的自回归机制。它是用过去的几个词来预测下一个词。但正如我们前面提到,在做世界模型的时候,生成式 AI 可能未必是足够的。

张鹏:所以这个锅不是出在 Transformer,主要是自回归,从机理上看,它基本就是一个单向持续生成型的东西,不容易把所谓的规律加上。加 RAG 只能说降低幻觉,但是不能从根本上消除产生幻觉的机制,需要在整个机制下让它有快思考也有慢思考,既要有概率的预测,又要加上对过去规律的逻辑性理解,然后再去观察,去看到概率。

你看人类科学,以爱因斯坦为例,不就是人类提前 100 年想象了个东西,然后 100 年后人类拿数据验证了东西有效。本质上这也是先有规则,然后拿更多的东西验证。某种程度上这也是一个模型,未来的思考能力也应该跟着更多的观测和更多的数据,然后也变得更强。

张鹏:RWKV 算法能否解决自回归模型的问题?

漆远:RWKV 算法是 RNN 跟 Transformer 结合,但它本身还是一种神经网络架构,不能解决我们刚才讲的核心挑战。所以怎么办?从根本上讲是把有某种逻辑推理的能力和神经网络结合起来。

这里可以谈一下人工智能发展史上的两大流派。当年,在人工智能的流派里就存在所谓的符号主义。80、90 年代符号主义盛行,比如 90 年代专家系统在日本特别火,但后来衰落了。原因是只靠符号主义是不够的,它不能描述这个复杂的世界。再后来在数据的驱动下,连接主义兴起了,大家利用数据来做压缩。

符号主义:一种基于逻辑的智能模拟方法,认为人类认知和思维的基本单元是符号,而认知过程就是在符号表示上的一系列操作。

连接主义:又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法。认为人工智能源于仿生学,特别是对人脑模型的研究。

今天我们到了一个时间点,通向 AGI 要看能不能把符号主义和连接主义很好的结合起来,就像双螺旋一样,而不仅是把 RNN 和 Transformer 架构做结合。因为只靠符号主义太脆弱,它不能处理噪音,也不能很好地总结规律;只靠数据,又不能做很好的推理。就像相对论,爱因斯坦也没有坐过宇宙飞船,他却能推演出宇宙的规律,这就是两类能力本身的组合,而不只是对数据的拟合。假如你的规律本身不符合数据,数据又可以把这规律推翻掉。

科学的发展也很像这两类的结合,只靠规则也有问题,规则有可能跟数据不符。从科学哲学的角度来看,所有的科学都是可被证伪的,不可被证伪的是占星术。所有的科学都是对真理的一个逼近,它本身是不完备的,随着新数据出现,现存的理论可能被修正或者出现新的理论,所以必须把这数据和规则结合在一起。

张鹏:确实更接近人类的真实世界,人类的科学发展也是按照这样的方式在演进,既要有推理,又要有观测,一些规则方程最终要有新的数据,让这些东西持续向前滚动,才能不断向前发展。

所谓的灰盒,我的理解是它不是所谓的白盒,就是被写好了,随时打开都一样,灰盒它还能演进。但黑盒就是你都不知道它是怎么得出结论的,你也不知道该不该信,而且如果不对,只能让它再来一遍,并不能中间调整一下,让它把这个事做对,所以你是在白和黑之间找了一个中间状态,我觉得这有点接近,就是说人类科学发展可能是个灰盒的这个状态,对吧?

漆远:我个人相信,人类的进步就是一个灰盒模型。从某种角度上白盒在讲一个绝对的真理,但人类在往前走,我们就需要把这两方面结合在一起。我认为这是 AGI 往下走的一个非常重要的方向。

张鹏:你刚才讲了符号主义和连接主义,这俩词听着都很酷,一般带「主义」的词都很酷,但其实这俩词还是挺高深的,能不能再给我们举一点例子,让大家对这两个词有更多了解?

漆远:我一直在研究人工智能。最开始我们学「专家系统」,以前的专家系统就是一个标准的规则体系,如果 A 发生就有 B,如果 B 发生就有 C,是一套逻辑规则。规则确定下来之后,你就能判断。90 年代,专家系统有一阵子特别热,就是基于这种显规则。但显规则本身就是白盒,并且是纯白盒,你能看得非常清楚。

但挑战在于,很多地方有时不是那么白。有的时候还是需要一些灵感、概率的元素。并且,白盒往往不能处理噪音比较大的数据,不能精准刻画复杂的现象。

我前面讲,「AI 爱因斯坦」是 AGI 的一个核心的标准,如果用大白话说,就是 AGI 应该能理解复杂世界的未知规律。当然,复杂世界的未知规律未必是简单的公式,而公式都是对世界的简化。

这里就要思考,哪些是数据本身能发挥作用的,能更好模拟复杂的现象。它并不是最简单的,不像物理那么优美。比如说在生物体、经济金融都是多层次的复杂体系,都是非线性过程,都不是一个简单公式能确定的。这个时候,智能有可解释的地方,也有不可解释的地方,有白盒的地方,也有黑盒的地方,把它们融合在一起就是「灰盒大模型」。能解释的地方,我们要尽量注入规则和知识,同时要把数据的力量发挥出来,把 Transformer、Diffusion 等深度学习非常厉害的地方也充分地发挥出来,结合在一起。

05 

Scaling Law 还有红利,

但自回归架构存在功耗难题

张鹏:其实说「靠 Transformer 和 Scaling Law 通向 AGI 是不够的」,并不意味着它们是错的。它们在整个画面中仍然要扮演很重要的角色,但还是要有新的很重要的东西加进来,变成一个双螺旋,这样才能长出真正的 AGI 的正确基因

听起来,你这是造了一个新的通向 AGI 的双螺旋啊。

一般非共识提出来的时候,是不是都会有些压力?因为现在业界的共识都是「照着 Scaling Law 咱就砸吧」,OpenAI 都恨不得拿 7 万亿,「你给我无尽的钱,我就给你把 AGI 砸出来」。你在这个时候跳出来说「我觉得应该是双螺旋,不是一条路走到底」,这也不光是发篇论文,论文发出来可以语不惊人死不休,但你同时还在做无限光年这个公司。这个时候提出这种非共识,有没有压力?

漆远:这也不算完全非共识。首先第一点,我觉得 Scaling Law 还有红利。咱们还是用人脑来参考,人脑很省电,20 瓦或者 15 瓦。15 瓦不如一个灯泡,和一个大集群比完全不是一回事,搞一个集群有可能影响某个市区的电力供应。这是非常大的差异。但如果我们再想想,从参数的角度来讲,Scaling Law 还是有空间的,只不过我们今天的 Transformer 架构本身可能不够好。

回到人脑,人脑里有百万亿、千万亿的神经元连接。我们不知道 GPT-4 到底有多少参数,但普遍认为可能有万亿参数。相比之下人脑有百万亿甚至千万亿的参数,这意味着人脑的参数空间比今天的大模型还是要大至少两到三个数量级。从生物学看,如果说人脑的机制给我们一些启发,那么是指出了一个隐含的可能性:再大点还管用。

但我想补充的另一点是,脑科学还发现,人脑工作时真正激活的神经元不到百分之几,每次的激活量是非常小的。这么大的模型只用到这么少的参数,从机器学习的技术角度讲叫做「过参数化」。人脑模型从统计角度而言是海量参数的稀疏化表达,它每次激活的只是很小一部分,这样可大规模地节省能源,所以大脑功率只有 20 瓦。

总结一下,第一,模型继续变大肯定还有红利。但第二,如果用自回归的 Transformer 架构,以后再走百万亿、千万亿,那确实是需要更好的能源来源了。否则,不是说一个市区会没有电,有可能整个上海的电都耗尽。

张鹏:我同意,我们看到一个阶段之后,比如说从百亿参数到万亿到千万亿,这个东西我觉得还是可以理解,但是如果我们把这个无限倒推,推到这个能量都要吞噬宇宙,追求在科幻电影里看到过的那种终极智能,虽然这可能是一个可以去奋斗的目标,但它怎么看都不够优雅。因为很明显,这个世界不应该是用这样的功耗去解决问题的,因为「人」摆在这儿,按道理应该去追求一个更高的东西,而不是把一个低的东西无限地放大。可能从科学的角度来讲也不够优雅,是太复杂的故事。

漆远:不光是优雅。智能本身在某种程度上是和高效、聪明的计算密切相关。

张鹏:智能的密度,计算的效率,这其实都是很重要的。

漆远:这里的效率是讲,通过某种精巧、真正的理解来计算。当然,我们认为今天的红利首先来自于工程红利,这毋须质疑,并且非常非常重要。所有今天大家讲的大模型,不管是应用还是底层研发,首先都应该把工程做起来做好。但只靠这个,走向未来真正的 AGI 还是有挑战的,因为纯工程的方式会意味着系统越做越大越来越耗能。

06 

真正的世界模型

应该是对规律本身的建模

张鹏:刚才说你一手是学界的,另一手在工业界,如果从学术的角度提出这个观点没有问题,但接下来你既然还要在工业界做事,无限光年肯定要也要去解决产业里的问题,那你怎么把这个视角跟你要做的事统一起来?

咱们一开始说「既要又要」,既要通向 AGI,又要能解决问题、创造价值,前面的学术观点我们都 get 到了,但怎么连起来?哪些领域会比较需要你说的所谓的「灰盒」?有些领域是不是纯白盒就挺好,有些领域纯黑盒也没所谓?

漆远:我们不仅要抓紧市场需求,也要思考底层技术。这也是为什么除了公司的技术与产品研发,我还在研究院做稍为偏基础一点的研究和创新,而不是公司变成了研究院。我希望能把整个创新链条打通,从底层开始到真正的成果落地。从底层往上走,「底层创新推动应用产品」。反过来,如果说从实际市场需求来讲,从上往下看,是需求牵引产品,产品牵引应用技术,应用技术引导底层技术。

确实,很多地方也不一定需要灰盒。比如说现在很多 面向 C 端提供社交互动的大模型,用户聊天时只要聊得有趣味性,未必需要逻辑解释。让他絮絮叨叨地聊也没关系,提供情绪价值就可以,这是一种陪伴的价值。所以有的地方有黑盒就够了。

但是如果说我们今天讲「新质生产力」,比如建一个楼房,必须要考虑这个楼承重上限有多少,否则这个楼就要垮。

张鹏:有物理规律在。

漆远:这也让我想到 Sora。Sora 发布的文章名字起得特别有野心,名字是视频生成器(video generation),是物理世界的模拟器。

这是有问题的。因为它只看到二维的世界,并不能看到三维。人有两只眼,而很多动物是复眼,像苍蝇,只有三维才能看到一个三维的世界,有可能二维的人根本不知道三维,就像我们三维的人理解四维是非常难的一件事。Sora 想从二维数据里企图理解三维世界,有可能是不够的。

真正对世界的建模,就要超越 Sora,要理解规则对世界本身建模。

比如说在医学领域,医院体检报告的解读,我规定好的规则,你必须遵守。不是看这个片就能得出结论,整个过程有非常严谨的医学逻辑。金融也是一样,不管是买方还是卖方,从券商或者买方市场的投资经理的角度来看,都有非常严谨的推理逻辑,有证监会规定的很多标准,要一项一项对应下来。从银行的角度看也是类似的,比如我和一个做财务的公司交流,他们非常关心怎么能解决幻觉的问题?大模型看着很好,但是用起来,经常会一本正经地胡说八道。

这就是「AI 小学生「,不是「AI 爱因斯坦」,不是「AI 会计师」。所以我们怎么去把这件事情真正做起来?从怎样把财务工作符合会计逻辑,让楼房设计符合物理规律,到医生符合医学知识,到投资符合金融的逻辑,这些领域都需要真正严谨的推理。想要成为生产力工具,这些推理本身是特别重要的能力。就像没有人敢用一个车,它有时候能跑,有时候不能跑或者刹不住车。

张鹏:我觉得你刚才说的这个其实比较完整地解释了你怎么分析「什么是需要灰盒的市场」。就是说,未来智能供给到那些领域,这个领域里应该是个灰盒,不能给我黑盒,当然纯白盒也未必就是最对的。你刚才其实总结说它是需要有比如说有物理规律约束的,有一些明确规则的设定,里边有历史的被验证过的清晰逻辑,说白了就是不要在关公面前耍大刀。

漆远:艺术创作幻觉其实没问题,你可以今天幻觉成毕加索,明天幻觉成达利,没问题。艺术是没有统一的标准的,如果有的话可能有一个美的标准,但是有可能机器的美和人的美的标准也不一样,就像每个人的审美是个性化的。

但大部分行业都需要有一定的解释或者靠谱性,必须符合某种标准。像金融、医疗、建筑,这些行业肯定会有标准。

张鹏:不管是政府的标准还是自然的标准,总之那个标准一定要被遵守。

漆远:例如还有交通的标准,红灯要停,它得顺着这个基础规律走,这些其实是非常重要的。当然有一种可能性就是,AI 特别强大,它有了更多的摄像头和传感器之后,直接理解了物理,真正地再造了物理理论,这是我前面讲的「AI 爱因斯坦」的高阶体现,但这是更遥远的未来。现在的 AI 首先要学习现在的物理知识,研究怎么结合观测数据再往下走。

张鹏:有人在问国内视频生成领域和国外 Sara 这些大模型相比,整体差距有多大?中国在视频生成这种黑盒的方向上,你觉得咱们的差距大吗?

漆远:不了解真实的差距,但是差距应该不是太大。差距大的地方是,卡没别人多,算力不足,视频的计算量对卡的消耗是很多的。

差距没那么大的地方在哪呢?相对来讲,所谓 video model,大视频模型和大语言模型比,发展还要稍微落后那么一点。技术圈里认为,视觉还不是一个被很好解决的问题,不像大语言模型写的文章那样能通过图灵测试。今天的视觉大模型相比大语言模型要弱一些。这意味着什么呢?虽然我们受制于算力或者其他因素,有可能比海外落后一点点,但大家离真正的能达到的视觉大模型都还有不少可挖掘的地方。

张鹏:说白了,语言模型我们已经找到 Scaling Law,但视觉这块,我们大概知道方向,但这里面还没有确定性。包括 Sora,我身边还没有一个人真正用过,我们都是看到他们放出的 Demo。包括最近国内也有很多类似的东西,但如果大家真正有机会去用一用,其实你需要有点心理准备。就像漆远刚才说的,这个领域跟语言模型相比,还没有达到 ChatGPT Moment,还需要继续探索。反正大家都还没过线,还都在摸石头,所以不是追不追赶的问题,也许有人会找到一些新的方法,但算力是个真实的约束。

漆远:是的,算力是个制约。这些视频大部分都是挑出来的。真正使用就会发现,每一个看到非常棒的 AI 生成视频背后,都有不少 AI 生成失误的案例。

张鹏:就像抽卡,你抽一万次卡,总能抽出一张特漂亮的,每几帧抽出一个,还得靠人挑出来。今天很多能剪出的好视频背后还是有不少人工的。

07 

底层创新和产品落地结合起来,

才是今天的第一性原理

张鹏:漆远说 Scaling Law 并不是通向 AGI 的终极方式,这个观点我也听过好几个人从不同的视角来说,包括杨植麟、马毅、杨立昆。杨植麟前几天来我们的 AGI 大会,他也说了一个观点,他认为学界就是要去找第一性原理的,工业界其实就是要真正有效地执行,所以他如果把自己放在工业界就专注有效执行,但他也觉得学界有不同的观点也挺好的,因为大家各自的使命不一样。

你是真正的跨两边,你是怎么把这两个使命搁在一起的?或者说,你是否认同,大家在学界和工业界其实使命会不同,进而行为和决策也会不同?

漆远:首先,我认同学界或研究院和公司是不一样的,使命不同。学界要探索新事物,工业界首先要解决实际问题。但因为我恰巧有两方面的经历,以前当老师、做学者,后来在工业界工作这么多年。做过不同的工作之后,会看到不同的世界观和价值观。

我们今天缺的恰恰是把它们真正地融合在一起。如果说能真正地把底层创新和产品落地联系在一起,而不是把它割裂,我认为会有更大价值,这是社会很需要的。今天讲基于需求「做一个产品」是很重要,但是我觉得技术通过产品到需求的连接价值是更大的。如果技术不匹配,再怎么调整产品功能点去抓用户需求,调整产品界面去提升用户体验,都不能达到目的。

讲第一性原理最多的是马斯克,他做的很多事是前人没做过的,他把底层创新和商业化落地合而为一。他要做的事情其实是要飞向未来但又脚踏实地。

打个比方,如果我的目标是去月球、去火星,不计成本去火星这事也许只适合比如国家去干,才有可能干成。但这也有风险。有一个观点是「伟大不能被规划」,可能是要需要市场化很多人和公司来探索的。市场化探索的时候就不能说,等到那一天我到了火星再说我是靠谱的再获得客户的认可和资金的支持。那我可以先搞点旅游,飞到太空让大家看一看,做个太空旅游,也可以搞个视频直播。

研究院在某种角度就是要「到火星」,要研究很多技术问题和工程问题,但如果说我今天只定这个目标,完全忽略产品化地解决社会问题,其实有两个短板:

一,没有真正的竞争压力,无法在竞争中得到锤炼。

二,没有有效的市场信息反馈来指导如何往前走,但这些信息是非常重要的。

所以我觉得今天应该有一个可能性,把底层创新和基于应用技术的产品落地,慢慢地联结起来,变成一套真正的创新链,对底层创新,对产品商业化都好。

如果说我们的「到火星」就是实现 AGI,那中间有可能我要先在金融里落地、在医疗里落地,去解决券商的问题,能帮买方更快更全面更好地产生投资思路,能帮助会计师做财务分析。这就相当于贝索斯的蓝色起源太空飞行公司带着人在天上做一个小型个人旅游,可以看到太空,但还没有走到火星上面。这些都是非常有益的测试信号。

张鹏:这里边存在一点,就是解决行业问题往往有多种方法。刚才有人问用 RAG 是不是就可以解决一些问题?似乎只要约束好幻觉问题就差不多了。但你的思路显然不同,你要从底层,甚至回到符号主义和连接主义的双螺旋结构去解决这个问题。很底层、很较劲地去做这件事,虽然都是服务于金融、建筑等领域,理论上也有几大路径,我看到也有不少创业公司采用类似的路径。

为什么要这么较劲?反而要回到很底层去做这件事?

问这个问题的原因,其实是因为学界往往追求第一性原理,而工业界更注重解决问题,解决问题时会有很多方法。面对不同方法时,你如何选择?为什么要选择那个既难、又有挑战、比较非共识,但可能更接近第一性原理的方法?

漆远:首先,我认为底层逻辑,也就是第一性原理非常重要。不管是科学还是商业,在底层逻辑上有很多共通之处。在以前的大公司我参与了很多商业讨论会议,我的体会是,大家经常想的是怎么能够解决一个以前没有被解决的问题。在商业上,如果问题已经被解决,那就变成了红海,高度内卷,打价格战,这在我看来是非常有挑战的路。

基于底层逻辑创新的产品和服务是中国今天需要的,也是全世界正在走向的方向。中国擅长应用,这没错。但今天的技术、产品和市场是紧密结合的。比如 RAG 架构确实很好,我们也做 RAG,但对于一些根本性和底层核心的逻辑,RAG 无法解决。比如定义一个稍微复杂一点的医疗诊断链路,RAG 调一个案例是无法精准判断的,还是需要医疗领域明确的指导规则。金融领域也是一样,技术本身要和产品适配,否则再怎么抓用户痛点、做界面,都不能解决真正的问题,因为技术受限。

我想强调的是,这并不代表用户需求不重要,不是说所有东西都要做底层的公式推导,而是要把用户需求和工程结合起来,找到底层技术可能要走的方向,哪些地方能更好地应用进来。我们讲灰盒大模型,因为世界不是非黑即白,也不是说要再造一个没有任何创新意义的专家系统。一定是两者的结合,才能真正满足用户需求。

AGI 的大目标我们并不放弃,但真正的用户需求是检验产品和落地的最直接挑战和今天的方向。以前我在工业界讲,凭空造一个通用人工智能平台是伪命题。一定是业务中沉淀平台。如果 AI 连平面几何都做不出来,怎么做黎曼几何呢?怎么做 AI 的爱因斯坦呢?所以一定是要做了初中的几何,才能走向 AI 的爱因斯坦。一定是先做好基础的,才能走向更高层次,并不是一步登天。所以,一定要结合直接的需求来做。

张鹏:我理解你其实在说,做产业也要有科学的第一性,这样才能真正创新和高价值,否则就会变成内卷,大家都在拼谁补丁打得好,没人想过做一件更好的衣服或新的架构。

在金融、医疗、建筑等领域,过去都有明确需求,但也很卷。如果你只是在大模型上打补丁,虽然能适度解决问题,但解决不了根本问题,而且因为太卷,价值有限。反过来,如果你既是科学家又是工程师,选择用第一性的方式解决问题,那你一定有创新红利,不是靠打补丁和服务到位来创造价值。

漆远:我认为这条路虽然难,但也是解决问题的最好方法。因为更难的路是大家都做一模一样的 RAG,最后一定会价格战。在国内这样竞争激烈的市场中,只有你能提供不一样的服务,才能好好活下来。RAG 最后拼的就是价格,很大程度上大家会把它拼到白菜价格。

我们做的是结合深入场景,做垂直领域的可信大模型,不是万亿或千亿参数的大模型。在专业领域里,几百亿参数的可信的大模型就能和万亿参数的大模型媲美甚至超越它。我们已经在金融、医疗领域取得了相关成果。

核心是,第一性原理指明大方向,市场需求牵引现在的研发

张鹏:有道理。我记得当年跟马斯克聊过类似的问题,他同时搞自动驾驶和 SpaceX,他说并不是想同时管两个公司,而是因为只有他能有效连通两个公司的价值和认知,这是当时效率最高的方法。外人可能理解为他既要又要,但对他来说是唯一的路。

看来,你们并不完全追求 Scaling Law 中参数数量的增长,而是更看重在解决问题上的智能密度,以及模型的可解释性和可靠性。如果这些方面能够提升,那确实是非常有意义的一件事。

漆远:没错,从工业界角度来看,这个理解非常直观。比如,医生不需要成为律师,律师也不需要成为投资专家,每个专业角色都应该专注自己的领域,做好自己的生产力工具,帮人们理财、看病等。从技术层面来说,如果让一个大模型过度学习不相关的任务,就可能会发生「灾难性遗忘」。就像李白如果整天做会计而不写诗,他的诗歌灵感可能也会逐渐消退。我们已经观察到,在训练垂直领域的大模型时,如果让模型学习过多不相关的功能,会对其原有的能力产生干扰。

这也是为什么现在大家都在探索 MoE(Mixture of Experts,专家混合)架构,将不同的专家组合在一起。因为大模型在规模扩大的同时,其能力之间也可能相互干扰,这是一个技术上的挑战。所以,做好垂直领域的灰盒大模型,我认为在产业落地中具有极大的价值。

文章来源于:微信公众号Founder Park

对话无限光年创始人漆远:Scaling Law 不通往 AGI,AI 落地需要「灰盒大模型」

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...