在上海的酷暑之中,「甲子光年」见到了从欧洲远道而来的Jürgen Schmidhuber(于尔根·施密德胡伯)。
这位61岁的德国人是2024世界人工智能大会(WAIC)科学前沿主论坛的重磅嘉宾,他也被称为“生成式人工智能之父”。
在数年研究的基础之上,Schmidhuber与他的学生Sepp Hochreiter等人于1997年发表了有关长短期记忆(LSTM)的架构和训练算法,成为20世纪被引用最多的人工智能论文。这种类型的RNN(循环神经网络)广泛用于科技巨头的自然语言处理、语音识别、视频游戏等应用,包括苹果的语音助手Siri以及谷歌的翻译。因此,LSTM曾在ChatGPT诞生前被称为“最具商业价值的人工智能成就”。
但Schmidhuber更想让大家了解的,是可以类比物理学“奇迹之年”(1905年)的1990-1991年。据他描述,在那期间,他通过引入GAN(生成对抗网络)、非规范化线性Transformer和自监督预训练原理,奠定了“生成式人工智能”的基础。这对ChatGPT中的“G”“P”和“T”都产生了广泛的影响。
因此,早在深度学习三巨头(Geoffrey Hinton、Yoshua Bengio和Yann LeCun)获得图灵奖之前,Schmidhuber就已经被《纽约时报》称为“成熟人工智能之父”了。埃隆·马斯克也在X上盛赞:“Schmidhuber发明了一切。”
2013年,Schmidhuber被国际神经网络协会(INNS)授予“赫尔姆霍兹奖”,旨在表彰他在机器学习领域的重大贡献。2016年,他又被授予IEEE神经网络先锋奖。目前他担任瑞士的人工智能实验室IDSIA的科学主任以及沙特阿拉伯阿卜杜拉国王科技大学(KAUST)的人工智能计划负责人。他还参与了几家人工智能公司的运作。
这引发了新的疑问:为什么他还没有得过图灵奖?
南京大学人工智能学院院长周志华教授的评论值得参考,他曾表示:“要论对深度学习的贡献,Hinton无疑居首,LeCun和Schmidhuber贡献都很大。但HLB总捆绑在一起。获奖需有提名有投票,人缘也重要。不过没关系,有LSTM这样教科书级的贡献,他足以淡定。”
在为期两天与「甲子光年」的深入交流中,Schmidhuber以其标志性的时尚黑色贝雷帽与流利的德国口音英语,展现出一位兼具幽默与亲和力的学者形象。然而在这种和蔼可亲的外表之下隐藏着一种不屈不挠的精神,渴望在快速发展的人工智能研究领域建立科学诚信。
谈及个人及学界同仁被忽视的贡献,尤其是欧洲那些小型学术实验室在科技巨头之前取得的开创性突破,Schmidhuber的话语中透露着修正历史记录的迫切感。
过去几年里,他已经和LeCun、Ian Goodfellow等人在社交媒体和演讲场合进行多次公开论战,利用自己准备已久并且经过同行评议的论据,指责对方利用自己更早发布的成果“炒冷饭”,而深度学习领域早期先驱应得的认可不该被淡化。
他的直言不讳自然会引发对他个性的争议。但Schmidhuber从欧洲和学术界出发的立场,也的确在硅谷可能存在误导性的主流叙事之外,为公众提供了宝贵的多元视角。更何况,他不仅坚持为自己发声,更不遗余力地表彰自己的杰出学生,以及那些在人工智能发展历程中被低估的贡献者,力求为他们正名。
关于谁应该被称为“人工智能之父”的争论,Schmidhuber指出,构建人工智能需要整个文明。并且早在20世纪50年代创造“人工智能”一词之前的几十年甚至几百年,现代人工智能的概念就已经在数学和算法原理的驱动下显现。
至于针对他本人的恶评,Schmidhuber表现得更加洒脱。他总是引用著名歌手“猫王”埃尔维斯·普雷斯利(Elvis Presley)的一句话:“真相如同阳光,或许偶被云遮,但终将光芒万丈。”
Jürgen Schmidhuber,图片来源:受访者提供
本文,「甲子光年」专访Jürgen Schmidhuber,从远早于1956年的人工智能开端,谈到自己的研究和对“深度学习三巨头”的看法,展望未来,他认为可能出现能够自我复制、自我改进的机器文明。在通往AGI的过程中,他相信除了大公司之外,一个没有太多资金的人也能为人工智能研究带来全面的革新。
1.比Transformer更好的架构
甲子光年:让我们从人工智能的历史开始谈起。你对AI的发展有着深刻的理解。你认为人工智能的历史中有哪些需要澄清的东西?
Schmidhuber:当然有很多。人工智能的开端远早于1956年的达特茅斯会议,当时是“人工智能”这个词首次亮相。但实际上早在1914年,Leonardo Torres和Quevedo便已设计出能够对弈国际象棋的自动化装置。在那个年代,下棋可是被视为智能生物的专属领地。至于人工智能的理论,可追溯至库尔特·哥德尔(Kurt Gödel)1931-1934年的工作,当时他确立了人工智能计算的基本局限性。
还有人说人工神经网络是20世纪50年代出现的新鲜事,其实不然。理念的种子在200多年前就已经埋下,高斯和勒让德这两位天才少年在1800年左右提出了我们现在能认作是线性神经网络的概念,不过当时他们称之为“最小二乘法”。他们拥有由输入和期望输出组成的训练数据,并通过调整权重来最小化训练集误差,以便推广到在看不见的测试数据上,也就是线性神经网络。
这是现在所谓的“浅层学习”,于是有些人认为更强大、更新颖的“深度学习”是 21 世纪的创新。但事实并非如此。1965 年,在乌克兰,Alexey Ivakhnenko 和 Valentin Lapa 开创了第一个可以学习的深度多层网络。例如,Ivakhnenko 1970 年的论文详细介绍了一个八层深度学习网络。遗憾的是,后来其他人重新发表了同样的想法和概念时,都没有引用乌克兰的发明人。
在我们这个领域,还有许多有意或无意的抄袭案例。
甲子光年:你本人也在人工智能的历史上扮演了重要角色。你能介绍一下1991年那奇迹般的一年吗?当时你的研究成果对人工智能行业产生了哪些贡献?
Schmidhuber:1990年至1991年是我们创造奇迹的时间,这是我非常自豪的事情。短短一年间,我们在慕尼黑工业大学的实验室里孕育出了支撑当今生成式AI的诸多核心观念。
从ChatGPT说起。它名字里的那个GPT,全称是生成式预训练转换器(Generative Pre-trained Transformer),首先是GPT和生成式AI中的G。它的根源可以追溯到1990年我先提出的生成对抗网络概念。那时,我把它称作“人工好奇心”,两个互相博弈的神经网络(一个具有自适应概率单元的生成器和一个受生成器输出影响的预测器)使用梯度下降来最大化彼此在博弈中的损失。然而,在极小极大的游戏中,生成器试图最大化预测器正在最小化的内容。换句话说,它在试图“愚弄”对手,生成难以预料的内容来挑战预测方的极限。这技术后来在Deepfake领域得到广泛使用。
至于P,就是GPT的“预训练”部分,也是我在1991年发表过的内容。我发现无监督或自监督的预训练可以大大压缩序列,从而促进下游对长序列(例如非常长的文本)的深度学习。
T代表Transformer。有人认为它2017年才在谷歌诞生,但其实在1991年,我已经引入该概念的变体,即“快速权重控制器(fast weight controller)”,其中一个变体现在被称为“非规范化线性 Transformer”。这种早期的Transformer效率极高,面对100倍的输入只需100倍的计算量,而不用像现在的Transformer一样需要10000倍的计算量。
甲子光年:很多人,包括Transformer的作者都表示,我们需要比Transformer更好的架构。它当然不是完美的,那么你认为下一代的架构应该是什么样子?
Schmidhuber:现在,提高Transformer效率是个热门话题,而我1991年的设计,无疑是个极好的起点。
对于下一代LLM的讨论,我们可以回到最初的阶段。当时谷歌和Facebook都使用了我们的长短期记忆网络,或者简称为LSTM递归神经网络(RNN),其根源可以追溯到1991年,我杰出的学生Sepp Hochreiter的毕业论文。该论文不仅描述了上述预训练(GPT中的P)的实验,还引入了残差连接,这是LSTM的核心成分,它允许非常深入的学习和处理非常长的序列。
1995年我提出了LSTM这个名字,但名字并不重要,重要的是背后的数学。直到2010年代末,LSTM才被Transformer取代,因为Transformer比LSTM更容易并行化,这是从当今大规模并行神经网络硬件(如英伟达的GPU)中获利的关键。
甲子光年:RNN可以解决Transformer无法解决的任务吗?
Schmidhuber:原则上它要更强大,比如奇偶校验:给定01100、101或1000010101110这样的比特串,1的数量是奇数还是偶数?看起来是一个简单的任务,但Transformers无法概括它。然而即使是简单的RNN也可以解决这个任务。
最近,Hochreiter的团队开发了一个令人印象深刻的LSTM扩展,称为xLSTM,具有线性可扩展性,在各种语言基准测试中表现优于Transformers。它对文本语义的卓越理解,以及可以高度并行化的版本,使xLSTM成为未来大规模实验的有力候选者。
2.他们应该被剥夺奖项
甲子光年:你喜欢被称为“现代人工智能之父”吗?
Schmidhuber:一个人是无法从头开始创建人工智能的。你需要一个完整的文明来构建人工智能。你需要人们来创建基本的算法,其他人来构建计算机,还有些人去挖掘制造计算机的材料;你还需要消费者,比如游戏玩家,他们推动了加快电脑速度的需求;还有那些为所有人种植粮食的农民。
甲子光年:这种说法很有意思,其实相当于每个人都在创造AI的过程中各司其职。
Schmidhuber:没错。你也可以把特定的神经网络归功于它们的创建者。例如,卷积神经网络(CNN)之父是福岛邦彦,他于1979年在日本发表了基本的CNN架构。1987年,在日本工作的德国人Alex Waibel将卷积和反向传播相结合,这种方法由Seppo Linnainmaa于1970年首次在芬兰发表,现在广泛用于训练神经网络。Zhang Wei也在1988年于日本发表了第一个反向传播训练的二维CNN。因此,从1979年到1988年,我们所知道的现代CNN起源于日本。
甲子光年:你还没有获得图灵奖。这对你来说是巨大的遗憾,还是说你并不关心这件事?
Schmidhuber:一个奖项颁给了那些重新发表一些关键方法和思想的人,而他们没有归功于这些方法和思想的创造者。那么人们究竟应该有多渴望获得这个奖项呢?剽窃在科学界是绝对无法容忍的。你可以从网上查阅我有关被抄袭的报告。
甲子光年:显然你指的是图灵奖的“深度学习三巨头”—— Geoffrey Hinton、Yoshua Bengio和Yann LeCun。之前你和他们经常有争论,目前你对他们的看法有什么改变吗?(注:Schmidhuber强调,这三人都出生于欧洲,其中Hinton来自英国,Bengio和LeCun来自法国)
Schmidhuber:没有,他们经常重新发布其他研究人员首次发表的方法和概念,没有适当的引用,在以后的出版物中也经常没有纠正这一点。我自己的团队尤其受到这种行为的影响,他们最引人注目的作品直接建立在我们的基础上。而且这不仅仅是关于我自己的团队,还有许多其他科学家的相关工作没有得到这几位获奖者的引用。
甲子光年:你认为他们应该向你道歉吗?
Schmidhuber:他们过去有机会道歉的时候从未这样做过,也从未相应地更正过他们的论文。他们违反了颁发这些奖项的国际计算机协会(ACM)的“道德和职业行为准则”。不过ACM也表示如果这样做符合该领域的利益,则保留撤销先前授予的荣誉的权利。因此,我认为他们应该被剥夺奖项。
甲子光年:你认为他们是否直接窃取你的成果?
Schmidhuber:众所周知,剽窃可以是“有意的”或“无意的”。科学上有行之有效的方法来处理“多重发现”和剽窃,那就是基于出版物和专利的出版时间。
如果你无意间重新发明了别人已经发明且发表过的东西,你必须发表一份勘误,并在未来的所有论文和演讲中注明原始发明者。如果你不这样做,你可就不算是科学家了。在数学这样一个成熟的领域,你永远不会逃脱剽窃的惩罚。然而,相比之下,机器学习领域似乎还相当不成熟。有时,解决争端可能需要一段时间,但最终,事实必须始终占上风。
Schmidhuber与“深度学习三巨头”,图片来源:受访者提供
甲子光年:如果你一直像这样批评某些知名人物,互联网上肯定出现一些对你的恶评。你会看这些评论吗?你会在网上搜索自己的名字吗?
Schmidhuber:著名物理学家理查德·费曼曾写过一本书:《你干嘛在乎别人怎么想?》他提出在科学中唯一重要的是事实。如果事实已经清晰,你为什么要关心网络上可能误导别人的匿名评论?
一些人按照古老的格言说的那样对我进行了人身攻击:“如果你不能对基于事实的信息提出异议,就攻击信使本人。”幸运的是,与政治不同,科学对人身攻击免疫。科学不是民主的。如果100个人声称一件事,只有一个人说的是相反的,但他/她可以通过事实来支持,那么他/她就赢了。
这也是为什么著名歌手埃尔维斯·普雷斯利(“猫王”)说:“真相如同阳光,或许偶被云遮,但终将光芒万丈。” 在硬科学中,唯一重要的是事实。唯一真正重要的是真相。
甲子光年:你会嫉妒美国的科学家吗?他们可能比你们富有得多。
Schmidhuber:嫉妒?更富有?为什么要这么说呢?无论如何,财富在科学中毫无意义。爱因斯坦,有史以来最著名的科学家,并不富有。尽管如此,他们还是称他为“世纪人物”。所以我的答案是不会的,我很高兴他们如此广泛地应用我们的方法。
3.线性的思维方式
甲子光年:你现在是沙特阿拉伯阿卜杜拉国王科技大学(KAUST)人工智能研究的负责人。是什么打动了你,让你前往沙特就职?
Schmidhuber:在此之前,我主要在瑞士工作,这是一个适合科研的好地方,在诺贝尔奖、专利、引用和人均AI发表等方面领先世界。但他们没有像KAUST这样的地方,KAUST现在是人均教职工影响力最大的大学,超过了加州理工学院和普林斯顿大学等机构。KAUST似乎是进一步推动人工智能研究的绝佳机会。沙特的资助也在使世界其他地区受益,因为我们正在产生许多可以从中国、美国和其他地方访问的开源结果。
甲子光年:我相信KAUST在AI研究方面拥有充足的资金和资源。你认为这也是大公司更有吸引力的原因吗?小型独立团队甚至学术界,是否已经无法取得实质性突破?
Schmidhuber:什么是实质性突破?是大模型测试中可以预见的0.5%的性能提升,而且要花费大量算力和资金的那种突破吗?还是那些与大公司业务存在本质不同的新内容,依靠效率更高的人脑就可以完成的事情?我仍然坚信,一个没有太多资金的人,有可能通过不需要花费太多成本就能实现的好主意来彻底革新人工智能研究。
甲子光年:基于你多元的从业经历,你会如何看待美国、欧洲、中东或中国等地的AI学界和业界之间的不同?
Schmidhuber:欧洲是计算机、计算机科学、人工智能和深度学习的起源地,大多数现代人工智能都起源于那里。几乎所有的核心深度学习技术都是在上世纪在欧洲开发的(当然日本也做出了重要贡献)。欧洲仍在培养大量的人工智能人才。然而随着时间发展,规模变得至关重要,这就到了美国和中国接管的时机。
欧洲缺乏谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯等科技巨头,尽管所有这些公司都基于万维网。(注: 万维网,由计算机科学家蒂姆·伯纳斯·李在瑞士的欧洲粒子物理实验室内设计并部署)
如今,美国和中国拥有众多独角兽初创公司,而欧洲只有少数。具有巨大市场估值的美国大公司可以很容易地收购一些欧洲最优秀的人才和整个初创公司,比如DeepMind。
甲子光年:你认为DeepMind最近发展得如何?他们之前的一些成果,比如AlphaGo、AlphaZero 等,都发表在《自然》杂志或其他期刊上。但现在更受欢迎的模式是像OpenAI这样直接为广大用户提供非常好的产品。(注:DeepMind联合创始人Shane Legg博士毕业于Schmidhuber在瑞士领导的实验室)
Schmidhuber:DeepMind曾经几乎就像没有缺点的学术界一样。他们资金充足的研究人员可以发表论文,而不必担心申请资金计划或者教学。然而,即使是像DeepMind这样的明星公司也无法维持独立增长。在它成为价值10亿美元的独角兽之前,它就被卖给了一家规模大得多的美国公司。现在它只是谷歌的一小部分。
甲子光年:我想学术实验室和大公司之间永远存在优劣的比较。OpenAI视频生成产品Sora的负责人之一Aditya Ramesh上个月公开表示,现在学术界能完成的主要是评估和测量,或者研究人工智能的可解释性,它们缺乏GPU这样的资源做出更大的贡献。顺便说一句,Aditya没有博士学位,因为他本科毕业直接入职了OpenAI。
Schmidhuber:他真的这么说?这样的说法似乎有点天真,反映了一种非常线性的思维方式:目前的趋势是通过越来越多的计算来扩展大型基础模型,而有些人无法想象其他任何事情,所以他们推断一下当前的趋势,认为其他一切肯定都是无用的。
甲子光年:所以你肯定不会信奉Scaling law?
Schmidhuber:我是旧版Scaling law的头号粉丝,该定律说:每5年计算成本就会降低10倍——自1941年Konrad Zuse在柏林打造了第一台实用计算机之后,该定律一直成立。这也是为什么我们20世纪90年代的技术现在能被应用于数十亿智能手机的原因。人工智能每十年便宜100倍,每个人都会从中获利,而不仅仅是少数大公司。
只是目前大语言模型(LLM)的规模化与AGI几乎无关,后者本应效仿人类的学习模式。婴儿是如何学习的?不是通过下载网页,它通过自我发明的实验来学习收集数据,这些实验改进了其自适应神经世界的模型,并且可以用于未来规划。然而,所有这些与现在如此受欢迎的LLM关系不大。
公司必须实现股东价值最大化,而科学研究则寻求前所未有的发现。不能指望这些完全不同的目标是协调一致的。
甲子光年:但金钱问题永远都很重要,即使是对于科学而言。
Schmidhuber:当然,几个世纪以来,科学和艺术一直追随着金钱。例如,在20世纪80年代和90年代,日本和西德等富裕国家资金充足的实验室分别是卷积神经网络和生成式AI创新的摇篮。到了1995年,这两个输掉二战的国家名义GDP之和超过了美国。但仅仅30年后的今天,美国和中国的经济规模都要比它们大得多,这些旧发明的推广大多发生在太平洋两岸的工业实验室中。
我记得15年前我第一次来中国时,我不得不给出租车司机看我酒店的照片,告诉他们我要去哪里。现在,他们只要拿起智能手机,我就会用英语或德语说目的地,他们就能理解。我的出租车司机可能不知道这是基于我实验室的研究结果,但正是那些足智多谋、强大的公司推广了这些技术,帮助深刻地改变了日常生活。他们是那些接受学术发明并为其提供服务的角色。
4.自我复制,自我改进的机器文明
甲子光年:你在科学界有导师或者榜样吗?
Schmidhuber:20世纪70年代,我还是个十几岁的少年,一开始我想成为我崇拜的爱因斯坦那样的物理学家,后来我意识到,在我有生之年,也许可以创造出一个比人类聪明得多的人工智能科学家,解决我自己无法解决的各种问题,从而极大地提高我有限的创造力。从那时起,这便决定了我的人生方向。
但总得来说,我是一个非常自我驱动的人,不得不通过艰苦的方式从经验中吸取各种教训。我想我最重要的导师就是那些让我追逐梦想而不会干涉太多的人。
甲子光年:那你喜欢哪位企业家吗?
Schmidhuber:我喜欢埃隆·马斯克,他曾经热情地邀请我参加了他精彩的家庭聚会,还有黄仁勋,我的团队在2010年使用了他出色的英伟达GPU,使深度学习速度快到足以打破基准记录。我也喜欢其他几位了不起但也许不太出名的企业家。
Schmidhuber(右)与黄仁勋(左)见面 图片来源:受访者提供
甲子光年:之前的媒体报道认为,你的不幸可能在于“太早了”——发表的成果比我们拥有的功能强大且更便宜的计算机的时刻要早了几年。你认为自己的经历是不幸的吗?
Schmidhuber:一点也不!如果我晚些时候做,别人可能就会抢先于我发现这些。超前是很好的,尤其是在人工智能领域,每5年计算成本就会降低10倍,因此,仅仅一个人的生命长度就足以看到这一切的发展。
甲子光年:你认为2020年以后出生的孩子将面临一个什么样的AGI世界?
Schmidhuber:一个非常棒的世界!我们的人工智能已经在帮助人类活得更长、更健康、更轻松,而且这一趋势还在加速。接下来会是物理世界中真正的AGI,而不仅仅是屏幕后面的AI。现实世界的物理挑战比虚拟世界的挑战复杂得多。人工智能在取代水管工或电工等熟练行业之前还有很长的路要走。然而我们有理由相信,现实世界中的人工智能将很快取得重大进展。
接下来重大的突破将来自物理机器人和其他机器的自我复制与自我完善。尽管3D打印机能打印零件,但它们还未能达到生物自我复制的能力。要组装一台完整的3D打印机,你需要许多其他机器,例如,从地下取出原材料,对其进行精炼,制造3D打印机无法打印的许多部件,将这些部件拧在一起等等。最重要的是,你仍然需要很多人来监督和管理所有这些过程。
然而最终我们将见到一个由聪明的和不那么聪明的物理机器组成的社会,这些机器可以从头开始共同建造所有需要的东西来复制自己,开采所需的原材料,修理损坏的机器人和机器人工厂,也就是一个可以自我复制,自我改进的机器文明。这里我想强调的是可以自我复制、自我维护、自我改进的硬件,而不是已经存在的,可以自我改进的机器学习软件。
创造这种逼真的硬件将面临巨大的商业压力,因为它代表了扩张的最终形式,它的所有者将变得非常富有,因为经济增长的核心就是扩张。
当然,这种类似生命的硬件不会局限于我们这个小小的生物圈。它的变种很快就会在其他星球出现,例如小行星带。太空对人类来说或许充满敌意,但对于设计合理的机器人来说却是友好的。未来太阳系的经济规模将远远超过我们目前的生物圈,达到数十亿倍的规模。即将到来的人工智能领域的扩张将不仅限于我们的小太阳系。
甲子光年:当今人工智能安全和道德领域最紧迫的问题是什么?人工智能带来的威胁能与核武器相当吗?
Schmidhuber:人工智能可以武器化,最近由廉价的人工智能无人机发动的战争就是明证。但目前人工智能并没有带来新的生存威胁。我们应该更害怕半个世纪前发明的氢弹,足够多的氢弹可以在几个小时内摧毁人类文明,不需要依靠任何人工智能。
甲子光年:有一种观点认为,在通用人工智能领域,我们没有试错的机会。我们现在可以做些什么来确保安全?
Schmidhuber:这就像是在说:我们不要再要孩子了,因为我们承受不起试错;人类不能简单地创造另一个婴儿,这个婴儿可能会成为一个连环杀手,或者制造出非常危险的人工智能……通过以友好、理性和负责任的方式迎接婴儿和人工智能的到来,我们就能大大增加了它们造福社会而不是伤害社会的可能性。
甲子光年:站在2024年的节点上,你对AGI有什么新的判断吗?
Schmidhuber:自1970年代以来,我一直在说人工智能将比人类聪明得多。它很快就会离开地球,去大多数资源的所在地,自我驱动的人工智能将首先接管太阳系,然后是银河系,然后在数百亿年内接管整个可见宇宙,以一种人类无法效仿的方式。
从我十几岁起,我就一直这么说。唯一的区别是现在有更多的人在听。在20世纪70年代,当我向妈妈解释时,她常说我疯了。在20世纪80年代,我的同学们说我疯了。但最近,许多人不再叫我疯子,因为他们突然相信AGI已经非常接近了。
甲子光年:你能为中国的初创企业或者中国的年轻科学家提供一些建议吗?
Schmidhuber:多多研究我们以前的和最近的论文。
*感谢相关方对本次专访的协助
**甲小姐对本文亦有贡献
(封面图来源:「甲子光年」拍摄)
本文来自微信公众号“甲子光年”,作者:田思奇
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则