自 OpenAI 发布让全世界瞩目的 ChatGPT 以来,时间已经过去一年有余。
大模型技术在这一年里不断进化:无论是越来越强的多模态能力,还是智能体(agent)的潜力初现,都让人们对这一场 AI 革命充满期待。但在 LLM 技术飞速发展的当下,要想使得大模型的能力落地关键领域,还存在哪些挑战及亟待解决的问题?
我们特别邀请了两位顶尖的技术极客——美国工程院院士、智源研究院原理事长张宏江院士,与 Google DeepMind 资深工程师卢一峰进行了一场有关前沿技术的对话。
作为北京智源人工智能研究院的首任理事长,在 2020 年 GPT-3.0 发布之后,张宏江曾带领一众国内学者探索大模型技术,在他主导下的智源倾斜了大量资源投入大模型训练,并发布了中国首个大模型,奠定了中国大模型领域的技术积累。
而卢一峰所在的谷歌,则一直以来是 AI 领域的先行者。目前,所有大模型所基于的 Transformer 架构最初都来自于谷歌对于 AI 的研究。2020 年,谷歌基于 Transformer 架构开发的 AI 聊天机器人第一代 LaMDA(当时项目名为 Meena)开发和推出,卢一峰就是项目发起人之一。作为技术专家,他也一直在产业第一线推进大模型能力的边界。
这次对谈中涉及了多个极为关键的话题:如何解决大模型幻觉(AI hallucination)、使大模型拥有「超人类」的能力、训练数据枯竭的下一步应对、以及底层技术架构创新等。正如卢一峰的调侃,不少提问是价值「百亿美元」级别的问题。
以下为访谈实录,发生在极客公园创新大会 2024,经极客公园整理编辑后发布
01
如何让人类更信任大模型:学会慢思考,表达不确定
张宏江:大家最近都在关注 OpenAI,尤其这一系列变化中间有一个代号为 Q* 的神秘项目。在 Sam Altman 被开除的 4 天前,有几名 OpenAI 的研究人员向董事会发出的联名信里写道,Q* 可能会威胁全人类。一峰,你怎么看?
卢一峰:毕竟我不在 OpenAI 里面,以下也仅仅是我的一些猜测。
我自己一直有一个观点:我觉得现在的大语言模型实际上还是属于一种「快思考」的模式。它的知识是来自于整个互联网的数据,压缩以后进行的重组、汇编,凭此来试着回答用户的问题。它实际上离我们真正所谓的「慢思考」——即帮助人类去解决一些很难的问题,还有很长的路要走。
区别就在于,你可以让它帮你写一些日常的邮件,但是如果你问它,「我们怎么能够把人类带到火星?」这样的问题,那它就无法用一次问答的方式获得完整的答案。这个时候,我认为它需要像我们做科学做实验一样——需要运用很多的工具,去探索不同的可能性,把其中比较好的方向摘出来,再往前进一步。
而这种方式,目前在大模型中还没有太多的出现。所以我并不担心(Q*会威胁人类)。未来,如果大模型能够自我进化、自己推进研究,那可能是我会更担心的时候。Q* 可能就是朝着这个方向,取得了一些比较有前景的早期成果,或者是他们看到了它自我进化的能力,这可能是他们比较担心的。
张宏江:那我们接着讨论一下,大模型怎么样才能够慢思考?对比一下人类的慢思考能力怎么获得,大模型的训练有没有可以借鉴的地方?
卢一峰:大模型现在一次成型回答问题,依靠生成一个词元,用这个词元加到它的上下文里面,来生成下一个词元,我们称之为自回归的解码(autoregressive decoding)。
我个人觉得如果我们要获得慢思考,实际上我们要回答两个问题。
第一个问题是,大模型在一个一个解码的时候,在什么时候会不确定?就像如果别人问我,一峰你怎么样造一个火箭去火星?那可能我说「我觉得…」,之后的下一个词,我可能就会卡住,思考我到底该说什么。我们要找到模型这样不确定的时候。
第二个问题就是,在它不确定的时候,我们怎么停止它,让它进行探索。这个探索可以有几类。实际上和我们人类很像。当我不确定的时候,我会做什么呢?我会上网,我会去翻书,我会做实验,我会去想一些莫名其妙的想法,我会去跟别人讨论。大模型也有对应这几种方向的技术路线。
上网和翻书,对应的是检索增强生成(RAG、Retrieval Augmented Generation),就是把搜索引擎加到模型中来。用各种实验系统(包括仿真)对应的是工具的使用。和别人聊一聊,对应的是大语言模型智能体(agent)和智能体之间通过多智能体之间(multi agent)的交流和组合,来获得一些共识。
做研究的代表可能是搜索,比如说 AlphaGo 里面的蒙特卡洛树搜索(Monte Carlo Tree Search),或者说我们之前做 AutoML 时使用的神经结构搜索(NAS Architecture search),或者进化算法,本质上都是搜索算法。
最终的状态可能是达到一个循环,条件为「我不确定」时,那我就去找一些相关的信息来。继续判断这个条件,达成了「我确定」,就继续解码下一个词元,否则就再去找一些相关的信息来。
当我们能够准确地回答大模型什么时候不确定,以及不确定以后应该怎么确定这两个问题时,我们就能够很自然地引入大模型的「慢思考」。
张宏江:今天,大模型幻觉问题(hallucination)还比较严重,这些不准确性使得我们在一些所谓的关键任务中不太敢用大模型。最近业界如何试图解决这个问题?
卢一峰:在这个问题上,我最早的思考角度源自 John Schuman。
他提到,预训练的大模型内部已经压缩了很多知识,模型内部已经有了一个概率分布,了解自己知道什么不知道什么了。而我们在做第二步微调,或者我们称为对齐的这个步骤时,如果我们没有很仔细地去做,那我们有可能会促使它撒谎。
一个简单的例子就是,如果它的训练数据是到 2021 年截止,还不知道 Elon Musk 后来当了 Twitter 的 CEO,我们对齐时强迫它说 CEO 是 Elon Musk,有可能你最后教会它的,并不是这一条知识,而是教会了它说谎。它就会学会,哪怕我不确定、不知道,也可以瞎说。
我们需要非常仔细、非常谨慎地去选择对齐数据,保证我们让它说的东西是真实地反映了它的知识水平、它的数据库里面的数据。
这是一种想法,后来实际上业界也会有很多更新的方向:
其中一个比较热门的方向就是检索增强生成(RAG)。就是说,通过去发送一些搜索引擎的查询去获得一些很客观事实的简短的文字,然后再把这些简短的客观事实,像维基百科这样的相关的文字放在这个上下文窗口里面。
我们尝试过所有这些方向后,发现现在大模型的幻觉问题的解决,比起年初已经有了不错的进展,但是离真正的靠谱还有很远。
张宏江:是的,大概一个月以前,我跟伯克利的 Michael Jordan 有过一次见面,他讲到我们在市场营销上也好,金融行业也好,都在处理一件事情,就是不确定性。了解不确定性,提前算入或者避免不确定性,十分重要。和人类一样,大模型的幻觉是无法减少到零的——但是,当我们回答问题的时候,人类会说「让我想一想」。
卢一峰:是的。如果它能够很坦诚地表达不确定,它就能赢得用户的信任,因为用户知道它的边界在哪里。现在它最大的问题是一本正经地说瞎话。如果它能够表达不确定的话,这件事情已经算成功了很多。
02
大模型的下一步进化:合成数据、多模态和 agent
张宏江:能够做到这些,要求我们对于整个大模型的学习架构有个很大的改变。这就引出一个很重要的问题,Transformer 这种基本的架构是不是就是现在唯一可靠的架构?大模型向未来的发展的过程,中间技术路径上还会不会有新的,根本上的变化?
卢一峰:宏江老师,你提的问题非常深刻,我觉得问题的正确答案可能是值百亿美金,或者甚至更多钱。我的思考是这样的:
现在,我们提到的 Transformer 这个架构,实际上已经不仅仅指 17 年 18 年 Transformer 的那个论文包含的内容,而是指一整套的算法和解决方案。而且,即使说到最窄的范畴,现在 Transformer 的架构也已经比当年的 Transformer 的架构有了很大的优化和改进。
Transformer 是针对 GPU 和 TPU 这种非常擅长做稠密计算的硬件的软件加速器。包含了架构,也包含了下一个词元生成(next token generation)这种非常有效的训练目标等。它非常优雅地让我们通过压缩数据获得了智能。
我认为我们可以继续改进它,还有很大的空间,但要显著改变它则有一定难度。这个难度在于这几个维度已经彼此交织在一起。从 16 年到现在,整个业界在软件、硬件和数据方面进行了许多组合优化,已经将其推进到了一个局部最优状态。
而在这样的状态下,通常我们要打破它,可能需要跳出来。你要到下一个山峰,必须得先下山再上山,才能到达更高的山峰。
如果要发生大的变化的话,我猜测可能从几个点上:
首先是硬件的变化。Transformer 起飞和硬件关系很大。大概 17 年、18 年的时候,Google 的 TPU 以及英伟达的 GPU,到了一个相对比较成熟的一个状态。Transformer 团队设计出这个结构,最大化地利用了硬件的优势。
我的期待是说,如果有全新的硬件推出,可能会诞生很不一样的软件系统。或者软件和硬件能够相互推动,走出一条新的路。
另一个点,可能是训练目标的改变。我认为多模态可能成为下一个前沿领域。大模型通过看书的方式,学习到了人类文明的许多有意义的部分。而看书并不能学到所有的知识,有的时候一图胜千言。如果我们能够训练模型学习多模态数据,并且是对我们人类有意义的这些重要数据,比如很好的电影,或者说我们人类的战争的纪录片,将是非常有意义的。
我认为视频在下一个词元的预测上具有与文字相似的训练特性。你可以将视频视为一系列词元,例如观看第一集后,尝试预测第二集的情节,观看片段后,预测接下来会发生什么。通过这种预测工作,可能使模型具备更全面的世界知识,或者成为更完善的世界模型。
张宏江:今天,我们已经用尽了人类的所有的文字记录进行训练。文字数据的瓶颈应该再怎么突破?合成的数据会不会是一个趋势?
卢一峰:我觉得这是一个非常非常好的问题,宏江老师。数据是现有的这个 Transformer 架构下面一个非常非常重要的一个组成模块,甚至称之为最重要的组成部分之一都不为过。
我的看法是,数据不仅仅是数据,数据是一个过分抽象、过分笼统的一个概念。在我看来,数据实际上是任务,实际上是目标。
比如说我们通常把数据划分为两部分,一个是预训练的数据,一个是我们后面做对齐的数据。我们以预训练的数据为例。大家会觉得预训练就是说,把整个互联网的语料拿来,预测下一个词元就好了。但实际上,这个过程中,我们在做各种各样的任务。
有些是语言任务,比如说你说了「this」,那下面可能接「is」。有些是做推理、去做总结、甚至去做分析判断的任务,比如说把整个侦探小说所有线索、所有故事都作为上下文,让模型预测谁是凶手。它还会做数学的,编程的,写诗的,事实问答的各种任务。
我们现在称预训练过后的这种模型为世界模型。因为它做了各种各样的任务,它最后显得什么都懂得一点。但是我们好像现在是把这个世界上所有的语料都扔进去了,训练出来的模型有时候还是有点笨,不太可靠——因为互联网的数据是鱼龙混杂的,它只能代表普通人类的认知水平,而不能变成超人类,无法成为百分之一的聪明人的水平,怎么办?
从这个问题出发,我觉得我们就能推导出,我们还需要什么样的数据?如果我们要造所谓的合成数据,我们应该去造什么样的数据。我能看到合成数据的一个机会,是超人类的数据。
Demis Hassabis 之前讲过,创新有三个境界。大模型达到的就是第一个境界。似乎出现了一些创新,但实际上本质上是在达到现有人类已有的知识的平均线,没有突破人类知识的边界。
要到下一个层次,突破人类知识的边界,需要类似于 AlphaGo 里面的第 37 步的那种操作,或者说 AlphaFold 里面能够把这个世界所有的蛋白质折叠,精准预测的能力。要完成这样的任务,需要的数据很难通过从互联网上去收集,或者找人来撰写。
在这种情况下,实际上我们可能应该要用 AlphaGo 的这条思路去思考这个问题,就是说你可能需要的是只是给定一个环境,给定环境最终的目标,然后让大模型或者 AI 系统通过自我博弈、自我进化去达到一种超人类的解法,这个超人的解法实际上是最好的合成数据,也是我提到的慢思考的过程。
然后我们把慢思考的成果——因为你花了这么多算力把它给搞出来了——蒸馏回模型里头,能够让模型能更有效率地、一次成型地回答出这个问题。我觉得是可能合成数据的一个可能更深的一个逻辑所在。
03
创业者怎么做:亲自下水,找到能解决的独属场景和问题
张宏江:我们今天在座的观众中,有很多是大模型应用的行业人士。我们都知道,每当 OpenAI 召开发布会,无论是发布新的插件还是像这次发布的 GPT store,都会让许多人感到惊叹说,「OpenAI 的 GPT 的能力太强大了,把我原来要在一个垂直领域做的东西做掉了。我过去六个月做的事情白做了。」在这种情况下,作为创业者,我们还能做些什么呢?
卢一峰:我的第一个观点是,每个人在自己的赛道上的时候胜率是最高的。每个人都拥有自己独特的生活、工作和学习环境,以及独特的经历和社会关系,都能独特地感知到属于他自己的那个机会,在这样的情况下进行应用是胜率最高的。
第二,无论是大模型、当年的 AI,还是未来的智能体,我们都可以将其视为家里的汽车或电脑一样的工具,只是一种方便实用的工具而已。
当你有了这两个东西时,我与其去纠结于别人做提示词工程师我也要做,或者别人做应用我也去做一个,我觉得不妨退一步,冷静思考一下:如果突然间上天赐予我这样一个魔法工具,我能为我的生活,我能为周围的人带来什么改变?我能为我的日常生活带来多大变化?这是我的思考角度。
还是要亲自下水去玩这个模型,也许在这个过程中你会了解现在这个工具的边界在哪里,你也许能体感到,它现在可能还没有准备好。你再过一段时间再去玩一玩它。等到有一天你发现它能够帮你解决问题时,也许那就是你应该全力拥抱它的时候了。
张宏江:我同意,每个人都应该从自己的体验、经历、工作和爱好的领域来思考 AI 的潜在应用。移动互联网的成功源于一系列原生的应用,而如今我们仍处于大模型时代的早期,正在不断探索 AI 时代和大模型时代的原生应用和体验。
刚才你提到的这点,也是我也想跟所有的朋友分享的一点:让自己跳进水中成为一个实践者,成为一个玩家。只有在游泳的过程中,你才能够对大模型的潜力,对它的问题有更深刻的认识,对可能潜在的运用和自己能做的事情有激情。
大模型时代的产品,人机交互的形式一定会被取代吗?
LUI会不会成为主流?
AGI时代的产品经理,需要具备哪些素质?
12月27日周四晚20点,有赞创始人&CEO白鸦、极客公园创始人&总裁张鹏、乱翻书主理人潘乱将在 Founder Park 视频号直播间聊聊 AI 时代的产品经理,欢迎预约围观!
文章来自于微信公众号“Founder Park”,作者 “Li Yuan、郑玥”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则