图片来源:Princeton University
Z Highlights:
- 计算资源并非性能提升的唯一途径:Arvind Narayanan 认为,仅仅增加计算资源并不总是能带来模型性能的等比提升。目前,数据量正逐渐成为限制AI发展的主要瓶颈。
- 数据成为瓶颈:现有的模型已经在几乎所有可获取的数据上进行了训练,数据量的增加可能不会像以前那样带来根本性的改变或新的能力。
- 合成数据的局限性:合成数据在提升数据量方面可能并不总是有效的,因为它可能只是在牺牲数据质量,而没有提供新的学习内容。
- 社会对AI的误解:社会普遍对AI持有过度恐惧的态度,尤其是担心AI的自我意识和潜在威胁,但这种恐惧是没有根据的。AI目前更多的是工具而非自主意识的实体。
Arvind Narayanan 是普林斯顿大学的计算机科学教授,同时也是信息技术政策中心的主任。他是《AI Snake Oil》一书的合著者,并大力支持关于仅仅增加计算能力重要性的AI扩展迷思。他还是一本关于加密货币计算机科学的教材的主编,已在全球超过150门课程中使用,配套的Coursera课程已有超过70万名学习者。
AI扩展的瓶颈:计算资源并非性能提升的唯一途径
Harry Stebbings:准备好了吗?Arvind,真的很高兴能参与到这次对话。我是你在Substack上新闻通讯的忠实粉丝之一,我迫不及待地想看这本书。非常感谢你今天加入我们。
Arvind Narayanan:谢谢你,非常荣幸。
Harry Stebbings:现在我想直接进入正题。但对于那些没有读过Substack的人(他们应该读一读),你能简单介绍一下为什么你能如此熟练地讨论我们今天要谈论的话题吗?
Arvind Narayanan:我是计算机科学的教授。我主要做三件事:一是AI技术研究,二是理解AI的社会影响,三是为政策制定者提供建议。
Harry Stebbings:在我们深入探讨AI基础设施之前,我想先聊聊今天的AI热潮与比特币热潮的对比?它们有什么相似之处,又有何不同?
Arvind Narayanan:我花了很多时间思考这件事,我真的相信去中心化可以对社会产生巨大的影响,这正是我真正关心的角度。那么这将如何使社会变得更好?抛开赚钱的目的,大约在2018年左右,我开始感到非常失望。首先,当时我认为加密货币或区块链会成为解决方案,我突然意识到情况并非如此。例如,虽然加密货币有可能帮助世界上没有银行账户的人,但技术并不是其中的真正瓶颈。另一个部分是如果只是从这个社区的哲学角度来说,我确实相信我们的许多机构需要改革,或者说是去中心化,无论是什么,这其中也包括学术界。在一个理想的世界里,我们会有讨论如何改善我们的机构这种艰难但重要的对话。但相反,这些学生被区块链所吸引,他们想用脚本替代这些机构,我觉得这并不是正确的方法。从技术和哲学的角度来看,我真的对它感到不满。尽管AI有一定几率引发很多潜在危害,我认为它对社会净收益是正面的,但我不认为比特币也是如此。
Harry Stebbings:我们现在处在AI热潮周期吗?
Arvind Narayanan:我认为大概是的。现在有很多关于AI是否是一个泡沫的讨论。我不会预测将来会发生什么,但我确实认为AI公司,特别是生成式AI公司,在过去一年或两年中在处理事情的方式上犯了严重的错误。
Harry Stebbings:什么错误?
Arvind Narayanan:当ChatGPT发布时,人们发现了成千上万种新的应用方式,这些应用方式是OpenAI可能没有预料到的,这很好。但我认为AI开发者从中得出了错误的教训,他们认为AI是如此强大和特殊,以至于你可以直接将这些模型发布出去人们自然会找到它们的用处,他们没有考虑到实际去构建产品创造人们需要的东西来找到产品市场契合度,所有这些在科技领域非常正常的规则AI公司都误以为不适用于他们。
Harry Stebbings:我们可以从最难的也是最重要的问题开始,你也写过这方面的文章,我非常喜欢你的文章。大家现在都在问的核心问题是更多的计算资源是否等于更高的性能水平?还是我们已经达到了一个计算资源和性能提升不再成正比的阶段?微软的Kevin Scott认为绝对是的并且还有很大的发展空间。你为什么持怀疑态度?我们是否已经进入了计算资源的收益递减阶段?
Arvind Narayanan:回顾历史我们可以看到计算资源提升模型性能的方式是通过构建更大的模型。至少在我看来是这样的,从GPT-3.5到GPT-4之间最大的变化就是模型的规模。此外,它可能还使用了更多的数据进行训练,尽管他们并没有公开详细信息表明还有更多的计算资源。我认为这种趋势在走向终结。我们不会再有太多迭代,甚至可能完全没有迭代。模型的参数数量几乎比以前的大一个数量级因此更强大。数据正在成为瓶颈。这些模型已经在公司能够获得的几乎所有数据上进行了训练。然而虽然数据正在成为瓶颈,但我认为更多的计算资源虽然不同往日但仍然有帮助。讽刺的是,从我们在过去一年左右所看到的趋势的角度,更多的计算资源可以让我们构建更小的模型,但这些模型的能力水平仍然相同。现在的模型比最初的GPT-4要小得多,成本也更低,但能力水平是一样的。我认为这种趋势可能会继续。我坦白说很怀疑我们是否会看到GPT-5的跃升像GPT-4与GPT-3的跨度那样大。
Harry Stebbings:我们一个个来谈论好吗?很多人会说你刚才提到的数据短缺可能是性能的瓶颈,还有很多我们还没有挖掘的数据。显而易见的例子是像YouTube上大约1500亿小时的视频,第二个例子是合成数据,即创建那些尚不存在的人工数据。这些反驳在多大程度上有效呢?
Arvind Narayanan:的确有很多还未挖掘的资源,但当我们开始查看这些数据的实际数量时,这些数据究竟有多少个Tokens呢?我认为情况就不一样了。1500亿小时的视频听起来真的很惊人,但当你进行完这些视频通过语音识别系统并实际提取文本Tokens再去重等操作后,其实数据量并没有那么多,甚至比一些现有的大型模型已经训练的数据要小一个数量级。现在,如果用视频本身来训练而不是从视频中提取的文本可能会带来一些新的能力,但不会像以前那样有根本性的变化,比如以前我们看到的那样,模型能够做出一些人们根本没有预料到的事情,像AI社区当时看到的那样震惊,我记得在GPT-2发布的时候,当时它主要是用英文文本训练的,他们实际上试图过滤掉其他语言的文本来保持数据清洁度,但其他语言的一小部分文本进入了模型,结果证明那足以让模型在其他多种语言对话中获得一个合理的水平,这些是那种让人感到惊讶的能力,而这种能力的出现导致了大量的炒作和对未来更大模型能做什么的恐惧。但我认为这种情况已经基本结束了,因为我们正在训练人类已经表达过的能力,比如在文本形式中翻译语言。因此,如果你让数据集多样化一点,比如加入YouTube视频,我不认为这会从根本上改变什么。多模态能力是有很多发展空间的,但我不确定会出现新的文本突现能力。
Harry Stebbings:关于合成数据呢?比如那些新创造的和尚不存在的数据?
Arvind Narayanan:有两种看待方式。一种是今天合成数据的使用方式不是为了增加训练数据的数量,而是为了克服我们现有训练数据质量的局限性。例如,如果在某种特定语言中数据量太少,你可以尝试增加数据,或者你可以让一个模型解一大堆数学方程,把这些方程扔到训练数据里。这样下次训练的时候,这些就会成为预训练的一部分,模型在做这件事上的能力会变得更好。另一种看待合成数据的方式是,你拿1万亿个Tokens,训练一个模型,然后输出10万亿个Tokens,这样你就得到下一个更大的模型,然后你用这个模型输出100万亿个Tokens。我敢打赌,这种蛇吞尾的情况不会发生。我们在过去两年中学到的是数据的质量比数据的数量要重要得多。如果用合成数据来增加数据量,这只是在牺牲质量,你并没有从数据中学到新的东西,只是在学已经存在的东西。
Harry Stebbings:我曾在节目中和Scale.ai的Alex Wang谈到过关于数据的实用价值,他说构建有效Agent的最难之处在于大多数组织中的工作其实并没有在数据中被明确记录下来。就像在学校时老师会说“展示你的思考过程”或“展示你的工作过程”,但在一个组织中你并不会这样做。你会在白板上画出想法,然后在文件中记录你认为的结果,但白板上的内容往往并没有与数据源相关联。我们有多少“展示你的工作”的数据让模型Agent在现代企业中实际发挥作用?
Arvind Narayanan:是的,我认为这个观点非常准确。我认为人们的直觉被大型语言模型(LLMs)的快速改进所误导了,这一切都在已经存在的网络数据学习范式下进行。而一旦这些数据耗尽,你就必须转向新型学习。这就像学骑自行车一样,这是种隐性知识,并不是写在纸面上的东西。所以很多组织中的工作是认知上的相当于我认为发生在骑自行车的物理规模上的事情。为了让模型学习这些多样化的任务,而这些任务不会从网络中学到,你必须在组织中实际使用AI系统,让它从这种来回的经验中学习,而不仅仅是被动地吸收数据。
Harry Stebbings:你认为现代企业今天有多大意愿让被动AI产品进入他们的企业来观察、学习和测试?真的有这种意愿吗?
Arvind Narayanan:我认为需要的不仅仅是被动观察。你必须实际部署AI才能获得某些类型的学习,这个过程会非常缓慢。我觉得一个很好的类比是自动驾驶汽车,我们在二三十年前就有了原型车,但要实际部署这些东西必须在稍大一点的规模上逐步推出同时收集数据确保达到下一个九的可靠性,比如从四个九的可靠性到五个九的可靠性。所以这整个过程是一个非常缓慢的反馈循环。我认为这种情况也会发生在很多企业的AI部署上。
AI模型的未来:小型化将成为趋势
Harry Stebbings:你提到较小的模型,能否帮我再理解一下?对不起,这个节目很成功的原因之一是我问了所有人都想问但他们不敢承认自己不知道答案的问题。为什么我们看到越来越多的趋势是转向较小的模型?为什么我们认为会有一个由许多较小模型组成的世界是模型领域中最有可能的结果?
Arvind Narayanan:在我看来,很多情况下这些模型的采用并不是因为它们的能力瓶颈。如果这些模型今天被部署来做所有它们能够完成的任务,那将真正是一个惊人的经济转型。瓶颈是能力之外的其他东西。其中一个大瓶颈是成本。而成本当然是大约与模型的大小成正比的,这就对模型大小产生了很大的下行压力。一旦你把模型变小到可以在设备上运行的程度就开辟了很多新的可能性。也有隐私方面的考虑,如果是有一些监听电话对话或者查看桌面截图的AI助手,大家对于在设备上运行的模型感到更舒适。而且从成本角度来看,你不需要专门的服务器来运行这个模型。我认为这些都是公司努力在不显著降低能力的情况下让模型变得更小的原因。
Harry Stebbings:摩尔定律不会让成本在相对较短的三到五年内大幅下降吗?
Arvind Narayanan:你说得对。在某些应用中成本将大幅下降,但并非所有领域都是如此。
Harry Stebbings:为什么有些地方成为了障碍而有些地方不是?
Arvind Narayanan:这里有一个有趣的概念叫做杰文斯悖论。最早是在18世纪英国的煤炭背景下出现的。当煤炭开采变得便宜时,对煤炭的需求增加了。因此投入煤炭开采的资金实际上增加了。我预测我们将在模型上看到类似的情况。当模型变得更便宜时,它们会被应用到更多的地方,因此公司在推理方面的总支出实际上会增加。在像聊天机器人这样的应用中,比如文本输入文本输出方面成本会下降,即使有人整天在和聊天机器人对话,也可能不会变得太贵。另一方面,如果你想扫描某人的所有电子邮件,如果模型变得更便宜,你就会让它一直在后台运行,然后从电子邮件整理出所有他们的文件。然而其中一些附件可能会非常长,甚至有几兆字节。因此即使有摩尔定律,在中期内成本仍然会很重要。实际上让模型多次完成相同的任务,有时候是成千上万次,有时候甚至是数百万次,然后选出最好的答案是对输出质量非常有利的。所以在这些情况下,不管成本如何下降,你都会相应地增加重试次数,以获得更好的输出。
Harry Stebbings:较小的有效模型因为成本的原因也很受欢迎,这对计算需求意味着什么?
Arvind Narayanan:这里有训练计算,也就是开发者在构建模型时的计算,然后是推理计算,也就是模型在部署和用户使用时的计算。可能看起来训练成本才是我们应该担心的因为它是在互联网上所有的文本上训练的。但事实证明,在一个模型的生命周期中,当有数十亿人使用它时,推理成本实际上是加起来的,模型本身才是主要的成本。让我们分别谈谈这两种成本。关于训练成本,如果你想构建一个在能力水平上相同或差不多的较小模型,你实际上必须训练它更长时间。这增加了训练成本,但这可能是可以接受的,因为模型较小,你可以将它推向消费者设备,或者即使它是在云上运行你的服务器成本也较低。因此训练成本增加,推理成本减少。但因为推理成本是主要的,所以总成本可能会下降。
Harry Stebbings:怎么理解总成本下降?
Arvind Narayanan:如果你有相同的工作量,而你有一个较小的模型在做这件事,那么总成本就会下降。
Harry Stebbings:关于计算与模型的协调,David Khan在节目中说你永远不会在同一个数据中心上训练一个前沿模型两次,这意味着现在模型的开发速度比新的硬件和计算速度要快得多。你如何看待这个问题?我们发布新模型的速度如此之快以至于计算无法跟上它们,因此你不会想在旧的H100硬件上训练你的新模型,这些硬件已经有18个月的历史了。每个新的前沿模型都需要最新的硬件。
Arvind Narayanan:我认为我们仍然处在一个这些模型还没有完全商品化的时期。这方面显然有很多进展,对硬件也有很大的需求,硬件周期也在快速改善。但是你得知道每一个指数增长其实都是一个伪装的S形曲线。所以S形曲线是一种开始看起来像指数增长的曲线。但经过一段时间后它必须逐渐变平,就像每个指数增长都必须逐渐变平一样。所以我认为这种情况会发生在模型和这些硬件周期上。你知道,我无法预测这需要多长时间,但我认为我们会到达一个模型确实变得商品化的世界。
LLM评估与AGI发展的局限性及未来趋势:基准测试、产品开发与模型商品化的平衡
Harry Stebbings:谈到这种商品化,你之前说过LLM评估是一个雷区,为什么?
Arvind Narayanan:LLM评估是雷区的很大一部分原因在于“感受”的问题。你在这些基准测试上评估LLM,但它在这些基准测试上的表现似乎很好但“感受”却不对。换句话说,你开始使用它时它的表现却让人觉得不够好,在基准测试中没有捕捉到的方式中犯了很多错误。原因很简单,当有很大压力要在这些基准测试中表现得很好时,开发者有意或无意地在优化这些模型以便在基准测试中看起来不错,但在现实世界的评估中却不太理想。所以当GPT-4发布时OpenAI声称它通过了律师资格考试和医师执照考试,这对医生和律师意味着什么?非常兴奋和担忧?但答案最终是几乎没有影响,因为律师的工作并不是整天回答律师资格考试问题。这些模型被测试的基准测试并不能真正捕捉我们在现实世界中会如何使用它们的方式。这是LLM评估是雷区的一个原因。还有一个非常简单的污染因素是也许模型已经在基准测试中接受了要评估的问题的答案训练,因此如果你问它新问题它也会遇到困难,还有各种其他的陷阱。所以我们不应该对基准测试寄予太多希望。我们应该关注那些真正尝试在专业环境中使用这些AI系统的人,无论是律师还是其他人,我们应该根据他们使用这些AI系统的经验做出判断。
Harry Stebbings:我们提到了一些早期用例,比如通过律师资格考试以及一些真正疯狂的模型应用方式。我确实想深入探讨一下那些正在构建产品的公司和这些公司的领导者Mark Zuckerberg和Demis Hassabis说AGI比我们想象的要更远,Sam Altman和Dario Amodei、Yvonne LeCun在某些情况下说比我们想象的要更近。你对公司领导者关于AI和AGI的预测有何看法和分析?
Arvind Narayanan:我们先来谈谈AGI是什么。不同的人对它有不同的定义,因此他们经常彼此谈话时误解对方。我们认为最相关的定义是能够自动化大多数经济上有价值任务的AI,这是一个非常务实的定义。它不在乎AI是否有意识也不在乎它是否像人一样思考,这些问题坦率地说对我们并不那么有趣而且也更难预测或推理。根据这个定义,如果我们有了AGI,那将对我们的社会产生真正深远的影响。所以现在关于CEO预测的讨论我认为一个有帮助的是要记住自AI诞生以来就有这些关于即将出现AGI的预测,已经超过半个世纪了。Alan Turing在第一台计算机建成或即将建成时,人们认为我们需要AI的两样主要东西是硬件和软件。我们已经完成了最难的部分——硬件。现在只剩下一个简单的部分——软件。但现在我们知道那是多么困难。所以我认为从历史上看,我们看到的情况是,就像爬山一样。无论你在什么位置,似乎只有一步之遥。但当你再往上爬一点时,复杂性就显现出来了。这种情况一再发生。现在我们只需要做出更大的模型,所以你会看到一些愚蠢的预测,但这些预测很快就开始显露出局限性,然后下一层复杂性就显现出来了。这是我的看法。我不会对CEO们那些过于自信的预测给予太多信任。
Harry Stebbings:是否有可能同时追求AGI和超智能,正如OpenAI显然在做的那样,同时创造可以在日常使用的有价值的产品,还是这种平衡实际上是相互排斥的?
Arvind Narayanan:我当然认为这种平衡是可能的。在某种程度上,每个大公司都会这样做。很多研究都在研究实验室中进行。如果你考虑你的优先级,OpenAI的优先级是实现超智能和AGI。他们最好的研究人员、最好的开发人员、核心预算都会投入到这上面。当你有两个优先事项时,优先事项之一会占据主导地位。因此存在冲突。我认为要做到这一点需要管理层的纪律性,以确保公司的一部分不会过多地分散另一部分的注意力。我们看到这种情况发生在OpenAI,那些专注于超智能的人在公司里感觉不太受欢迎,很多知名人士因此离职,而Anthropic吸纳了他们中的许多人。所以看起来我们看到了一种分裂,OpenAI更加专注于产品而Anthropic更加专注于超智能。我可以理解这种情况发生的实际原因,但我认为在两个目标上都有专注的管理是不可能的。
Harry Stebbings:你说AI公司应该从创建神一样的东西转向构建产品,这是什么意思?
Arvind Narayanan:过去,他们没有这种平衡。他们如此迷恋于创建AGI的前景,以至于他们认为根本不需要构建产品。你知道,对我来说最疯狂的例子是OpenAI推出ChatGPT时,六个月内没有移动应用程序,Android应用程序甚至花了更长时间。有一种假设认为ChatGPT只是一个展示模型能力的演示。OpenAI的业务是构建这些模型,第三方开发者会拿API把它们放到产品中。但实际上AGI来得如此之快,以至于连产品化的概念都显得过时了。这不是我想把话放在别人嘴里,这是一种连贯但在我看来不正确的哲学,我认为很多AI开发者都有这种看法。这种看法现在已经有了很大的变化,这是件好事。所以如果他们必须选择一个方向,我认为他们应该选择构建产品。但是,一个公司仅仅是AGI公司而不尝试构建产品,不尝试创造人们想要的东西是不合理的。仅仅假设AI会如此通用以至于它会做所有人们想要的事情而公司实际上不需要制造产品是不够的。
Harry Stebbings:你认为公司是否有可能在任何AGI追求中竞争?Mark Zuckerberg承诺在未来三年花费500亿美元,OpenAI在过去三年筹集的并且他们继续以这个速度筹集的资金仍然比Zuck的三年支出少380亿美元。能否创造出类似AGI的产品或神一样的产品,除了Google、Amazon、Apple或Facebook?
Arvind Narayanan:我们一直处在一个历史上有趣的时期,很多进展来自于构建越来越大的模型,这种情况未来可能不会持续下去。也可能发生的情况是,模型本身会变得商品化,而很多有趣的发展会发生在模型之上的层面。我们现在开始看到很多这种情况发生在AI Agent上。如果是这种情况,伟大的想法可能来自任何地方。它可能来自一个两人创业公司,也可能来自一个学术实验室。我希望我们将在相对较短的时间内转向这种AI发展的模式。随着这些模型的商品化和认识到在它们之上可以建立的价值问题,这是否回到了我之前所说的实际上只有三到四个核心模型由财大气粗的云业务提供资金支持?显而易见的例子是Amazon和Google。对于Facebook来说,显然是Instagram和新闻推送。有三个大型模型提供商作为基础模型,每一个价值都是在它们之上建立的。这种情况可能会发生并且我认为这存在非常严肃的可能性,是一个需要引起监管者注意的领域。这对市场集中度和反垄断等等究竟意味着什么?我很高兴的是至少根据我的经验,美国监管者在考虑这些问题。我相信在英国竞争与市场管理局(CMA)也在关注这一问题,当然在欧盟也是如此。所以现在我仔细想想,在很多司法管辖区这也是监管者一直担心的问题。
虚假信息和深度伪造的威胁:技术不是唯一的解决方案
Harry Stebbings:你在讨论一开始就提到你的政策工作包括和美国监管者和欧洲监管者的互动,如果你要为美国和欧洲的AI和模型监管提出最主动和有效的政策,你会提出什么?
Arvind Narayanan:某种意义上说,AI监管是一个误称。我来给你一个例子,就在今天早上美国联邦贸易委员会(FTC),一个反垄断和消费者保护机构一直担心人们为他们的产品写假评论。当然,这个问题已经存在了很多年。使用AI让这变得更容易了。所以现在有人认为这与AI监管有关,他们可能会说监管机构必须确保AI公司不允许他们的产品被用来生成假评论。我认为这是一个失败的命题。你怎么让一个AI模型知道某个评论是真实的还是虚假的?这完全取决于谁在写评论。但相反,这不是FTC采取的方法。他们正确地认识到无论是AI生成的假评论还是人写的假评论都是一个问题,所以他们实际上禁止的是假评论。因此无论AI是否被用作执行这些有害活动的工具,通常被认为是AI监管的内容实际上可能是对某些有害活动的监管。我认为所谓的80%的AI监管内容更应该被看作是这样理解的。
Harry Stebbings:当我请教Wharton的Ethan Mollick时,他说,实际上最好的政策是“允许并观察”政策。他认为我们应该让一切繁荣发展然后开始监管,而不是在不知道结果的情况下提前主动监管。这是否与您的观点相符?
Arvind Narayanan:我大体上同意这一点,我会再补充几点。首先,有很多种我们已经知道的危害,而且非常严重。比如使用AI制作非自愿的深度伪造,例如深度伪造裸照,这已经影响了成千上万甚至数十万的人,主要是世界各地的女性,现在政府终于开始采取行动了。这是一件好事。
Harry Stebbings:就验证方面而言,你提到深度伪造,我认为Sayash最近在Twitter上说过,最令他担忧的AI最大的危险实际上并不是我们会相信假新闻,而是我们会开始不相信真正的新闻。
Arvind Narayanan:我同意这一点,我们称之为“说谎者的红利”。有人担心AI生成的机器人会制造虚假信息并影响选举等事情,我们非常怀疑这将是一个真正的危险。
Harry Stebbings:你怎么能不担心这是一个真正的危险呢?我们是一家媒体公司。我们有出色的媒体人员,他们每天都在使用AI。我们今天可以用AI创造出一些可怕的东西而且大家会相信。
Arvind Narayanan:但你可以在没有AI的情况下创造这些东西,我不认为这是一个AI问题。
Harry Stebbings:我们不可能在没有AI的情况下制作特朗普伪装视频,用他的声音宣布对中国宣战。我今天可以用特朗普的伪装做一个假节目并发布出来,假装它是真实的,让他宣布对中国开战。
Arvind Narayanan:是的,但我认为之所以能欺骗很多人是因为它来自一个合法的媒体公司。因此我认为这种能力表明了一些一直很重要但现在变得更加重要的事情,比如来源可信度。
Harry Stebbings:那么在这样的世界里,我们是否会看到实际上大量的价值会流向那些已经被验证并且拥有品牌效力的主流媒体机构?如果是《纽约时报》那就没问题。
Arvind Narayanan:是的。这实际上是我们的预测。我们预测人们将被迫更多地依赖于从可信来源获取新闻。
Harry Stebbings:这让你担心吗?遗憾的是我认为人们并不总是像我们所期望的那样聪明。当你看虚假信息的传播以及人们接受虚假信息的意愿时,一条带有AI生成图片的推文,里面可能包含任何内容,都可能造成巨大的社会伤害,这真的很令人担忧。
Arvind Narayanan:虚假信息确实是个问题,但我认为虚假信息更多的是一种症状而不是原因。虚假信息是嵌入并确认人们已有的信念而不是改变他们的信念。我认为AI在这里的影响再次被大大夸大了。当然,你可以创造一个像你提到的那样的特朗普深度伪造,但当你看实际存在的虚假信息时,它们的形式是粗糙的。
Harry Stebbings:你刚才提到关于确认已有信念的问题。这种区别重要吗?我们在英国最近几周有骚乱,实际上你可以用AI生成的图像展示更多的移民或骚乱者煽动你应该加入,因为这正在发生。而确认AI生成的材料会导致采取行动,所以这实际上不重要关键是它煽动了行动。
Arvind Narayanan:当然了。但我想强调的是,这真的只是一个AI问题吗?这些是我们社会中的深层问题。所以,创造一张看起来现场有更多人的图片,用AI今天更容易做到这一点。但你可以花100美元请人用Photoshop做这个,甚至在AI之前也是如此。这是一个我们一直面临的问题。我们在处理这个问题时,往往并不成功。我的担忧是,如果我们把这个问题视为一个技术问题,并试图在技术上干预,我们将忽略真正的问题和我们需要做的艰难的事情来解决这些问题,这些问题与社会的信任有关。在某种程度上,这是一个技术问题,但它更像是一个社交媒体问题而不是AI问题,因为虚假信息的难点不是生成它,而是分发给人们并说服他们。社交媒体往往是这种传播的媒介。因此我认为社交媒体公司应该承担更多责任。我的担忧是把这个问题当作AI问题来处理会分散对所有这些更重要的干预措施的注意力。
Harry Stebbings:所以是社交媒体公司这些信息分发平台在决定什么是恶意的AI图像,什么不是吗?
Arvind Narayanan:是的,我认为主要的控制现在是由社交媒体公司行使的。
Harry Stebbings:我觉得你对内容虚假信息的担忧比我更少,所以我很感兴趣你最担心的是什么,什么是对你来说更迫切的关注点?
Arvind Narayanan:当我们谈到深度伪造时,我对虚假信息深度伪造并不太担心,我更担心的是深度伪造的裸照——我之前提到过的那些。这样的事情能够摧毁一个人的生活。令我震惊的是,直到几个月前这种情况发生在Taylor Swift身上,这件事才开始引起媒体和政策制定者的关注。在那之前,几乎没有任何关注。几个月前,Taylor Swift的深度伪造裸照被发布到Twitter/X上,从那之后,政策制定者才开始重视这个问题。但是多年来,这种情况一直在发生,甚至在最新一波生成式AI工具出现之前就已经存在了。所以这是非常明确的滥用形式。还有其他类型的滥用虽然不一定像这种一样危险,但给社会带来了很大的成本。比如学生使用AI来完成作业,现在高中老师和大学教授都不得不重新调整他们的教学方式以应对学生使用AI来写作业的现象,而没有任何有效的方法来检测AI生成的文本或作业答案。这给教育体系带来了大量成本。我不是说AI的可用性使教育变得更糟。我不一定这样认为。但你知道,它确实给教育系统带来了很多额外的负担。理想情况下,AI公司应该承担一些这样的成本。
AI在教育和医疗中的应用:仍需专家的有效输入
Harry Stebbings:在医学领域我们看法相差很大。每个人都说你会有一个随身携带的AI医生,这是认真的吗?医生们会摸你的肘部,他们会看X光片,他们会查看你的耳朵,观察非常具体的事情。他们还会查看你的鼻腔。你不会把你的智能手机塞到你的鼻子里。所以它不会感受你的手臂。为什么AI会彻底改变医疗,人人都能拥有一个口袋医生吗?
Arvind Narayanan:当然了,所以我不认为你完全错了。我认为之所以有这么多关于这个问题的讨论是因为它与一种我们一再观察到的现象有关,那就是当一个机构出现问题时,比如医疗系统的等待时间太长或者成本太高,或者在很多国家,人们甚至无法获得医疗服务,在发展中国家可能整个村子都没有医生的情况下,这种技术上的解决方案变得非常有吸引力。所以我认为这是在这个问题上发生的事情。我认为,负责任地使用AI进行医疗是将它与医疗系统整合在一起。实际上,医疗系统一直非常积极地采用技术,包括AI。因此,你可以将例如CAT扫描视为一种AI形式,用于根据某些成像来重建一个人的内部情况。现在随着生成式AI的出现,医疗系统对研究这是否对诊断有帮助或者是否可以用于总结医疗记录等等更平凡的事情也有很大的兴趣。所以我认为这项工作非常重要,应该继续。但这确实留给我们一个更难的问题,在美国,如果我需要等三周才能预约到全科医生,我很可能会尝试问ChatGPT一些关于我症状的问题。那么我们该怎么办呢?有适当的防护措施下这种情况是否真的有帮助,还是应该加以遏制?我不确定答案。
Harry Stebbings:我很高兴你在这个问题上也持怀疑态度,因为同样的逻辑也适用于教育领域,每个人都说它太棒了,因为你口袋里有一个导师。我理解这一点,但我们确实也有可以在家观看的视频资源。但是,导师与学生之间有个人关系,这是一个一对一的互动,我希望通过取得优异成绩来给导师留下深刻印象,而AI无法满足这种个性化的期望。你认为AI将如何影响教育的未来,尤其是一对一辅导和学生能力提升?
Arvind Narayanan:我认为这里有不同类型的学生。有一小部分学习者是非常自我驱动的,即使没有导师,无论导师是在小学、中学、大学还是专家级别,他们也能学得很好。我认为在所有不同的学习层次上都有这样的学习者。然后还有绝大多数学习者,对于他们来说,社交化的学习才是最关键的事情。如果你把这种社交互动去掉,他们的学习效果就会大打折扣,这一点经常被忽视。尤其是在AI开发者社区中,有很多自学成才的学习者。我就是其中之一。我几乎没怎么认真听过学校的课程,所有我知道的东西都是我自学的。所以我在印度长大,那里的教育体系不是很完善。我们的地理老师曾认为印度位于南半球。真的,是真事。所以,当我说我所有的知识都是自学时,我是认真的。因此,开发者们很多时候会认为自己就是典型的学习者,但其实不是。我认为,对于像我这样的人来说,AI在日常学习中是一个令人难以置信的工具。我每天都会使用生成式AI工具进行学习。它非常有帮助,因为与书籍相比,这是一个全新的学习方式。显然,我并没有停止使用书籍进行学习,但我不能向书本提问,或者我不能将我对某个主题的理解总结给书本询问它我是否正确,但我可以对AI这样做。然而我对这种新型学习方式是否会在短时间内成为人们主要学习方式持非常怀疑的态度。
Harry Stebbings:你认为人们对失业替代的担忧是否被过度夸大了?每次有新技术出现时,我们都会看到工作被替代的情况,但它往往会创造比之前更多的工作。你认为这次的情况也是这样,还是失业替代的担忧是合理的?
Arvind Narayanan:我认为目前这种担忧是被过分夸大了。我最喜欢的例子就是你说的技术创造工作,银行柜员是一个很好的例子。当ATM机出现时,合理的假设是银行柜员会消失。但实际上,柜员的数量增加了,原因是开设区域分行的成本大幅下降了。一旦银行开设了这些区域分行,他们就需要一些人来完成ATM无法完成的任务。更抽象的说法是,经济学家会说,工作是由一组任务组成的,而AI自动化的是任务而不是工作。如果一份工作由20项任务组成,AI能够自动化所有20项任务的可能性非常低。当然,某些职业已经受到了AI的很大影响,比如翻译或图库摄影等行业,但是对大多数工作而言,我认为我们离全面替代还很远。
Harry Stebbings:另一个让我担忧的是国防领域。Scale.ai的Alex Wang在节目中说,AI有可能成为比核武器更大的武器。你怎么看待这个问题?如果这是事实,我们是否真的应该开放模型?
Arvind Narayanan:我认为这是个好问题,我认为这有点类比错误。核武器是实际的武器,而AI不是武器。AI是一种工具,可以让对手更有效地做某些事情,比如找到网络安全漏洞和关键基础设施的漏洞。所以这是一种AI可以在所谓战场上使用的方式。因此如果我们把AI看作是一种类似武器的东西并且认为它应该被封闭起来是一个大错误。首先,这根本行不通。我们已经拥有接近最先进的AI模型,它们可以在个人设备上运行。我认为这种趋势只会加速。我们之前谈到过摩尔定律,它仍然适用于这些模型。即使一个国家决定模型应该是封闭的,要求每个国家都通过这种规则的可能性几乎为零。因此,如果我们希望通过确保所谓的“坏人”无法获取AI来保障安全,那我们已经输了,因为很快就会变得无法做到这一点。相反,我认为我们应该大力拥抱相反的做法,弄清楚如何在AI广泛可用的世界中使用AI来保障安全,因为AI终究会被广泛使用。当我们回顾过去我们如何做到这一点时,实际上这个故事是非常令人安心的。我们以网络安全为例,在过去的10年或20年里,软件开发社区一直在使用自动化工具,其中一些你可以称之为AI,来改进网络安全,因为软件开发者可以用它们在黑客有机会攻击之前找到并修复软件中的漏洞。我希望AI也会这样。我们能够承认AI将会广泛可用,并引导其在国防中更多用于防御而不是进攻。
Harry Stebbings:Arvind,你对过去两年AI的发展有什么看法是现在不再相信的吗?
Arvind Narayanan:和很多人一样,我被GPT-3.5之后GPT-4发布的速度给骗了。两者之间仅仅隔了三个月,但GPT-4的训练时间长达18个月。这一点是后来才透露出来的。所以它给很多人包括我在内带来了一个错误的印象,认为AI正在迅速进步。而自从GPT-4发布以来,差不多已经一年半了,我们并没有看到超越它的模型。在很多方面,这并不是基于基准测试。再说一次,我认为基准测试并没有那么有用,这更多是基于“感受”。当你让人们使用这些模型时,他们会说什么?我不认为在GPT-4之后的模型有显著的质的提升,也不认为AI的进展像12个月前我所想的那样快速。
Harry Stebbings:那么这种缺乏进展的原因是什么呢?
Arvind Narayanan:简单来说,构建更大的模型似乎不再有效了。我认为未来的新进展必须来自于不同的科学思路,也许是AI Agent,也许是其他东西。
Harry Stebbings:你认为社会对AI最大的误解是什么?
Arvind Narayanan:我认为我们的直觉过于被科幻小说对AI的描绘所影响了,而这种认为AI可以自我意识的想法真的是一个大问题。当我们今天看AI的架构时,这种恐惧完全没有现实依据。也许有一天至少在某种程度上人们会构建使这种可能性成为现实的AI系统,但这将是一个选择而不是必然。社会可以做出选择,政府和公司也可以做出选择。并不是说尽管我们尽了最大努力,AI还是会变得有意识并拥有主观能动性做出对人类有害的事情。这种恐惧完全没有根据。
Harry Stebbings:Arvind,我很想做个快速问答环节。我说一个简短的陈述,你给我你的直接想法,怎么样?
Arvind Narayanan:我们来试试。
Harry Stebbings:为什么AI排行榜不再有用?
Arvind Narayanan:因为基准测试和现实世界之间的差距很大,而且这种差距只会越来越大。随着AI变得更加有用,越来越难以通过这些人工环境来评估它的实用性。
Harry Stebbings:如果让你当OpenAI的CEO,你会做什么?
Arvind Narayanan:我会辞职。我认为我不会是一个好的CEO,但如果有一件事我可以改变OpenAI,那就是我认为公众了解AI开发的情况比任何公司商业利益都更重要,所以我认为需要更多的透明度。
Harry Stebbings:你对AI Agent的未来有何展望?
Arvind Narayanan:我的希望是电影《Her》中展示的那种场景会发生,但不是科幻的部分,而是更日常的部分。你给你的设备下达一个指令,它会以一种非常细腻的方式理解它并做你想要它做的事情,比如订购机票或者真正根据你想要的样子构建一个应用程序。这些是潜在的可自动化的事情,并没有大规模的社会后果。我希望这些事情可以发生。
Harry Stebbings:企业会越来越多地进入芯片和计算层面并与NVIDIA竞争吗?还是说所有企业会继续从NVIDIA购买形成持续的NVIDIA垄断?
Arvind Narayanan:我觉得有趣的是,NVIDIA本身正在非常努力地从硬件转向服务公司。每个人都在努力转型到这个业务中。
Harry Stebbings:为什么技术政策在90%的时候令人沮丧?
Arvind Narayanan:很多技术人员有点轻视政策。他们把政策制定者看作是,用直白的话来说,就是傻瓜。但我不这样认为。我认为政策很慢并且通常不符合技术专家期望的原因有很多正当理由,这就是为什么90%的时候令人沮丧。而我说90%是因为那剩下的10%真的值得,我们确实需要政策,尽管它令人沮丧,但我们需要很多技术专家参与政策。
Harry Stebbings:哪个国家会成为AI领导者,哪个国家会落后?
Arvind Narayanan:在生成式AI方面我很欣赏美国的做法,美国理解需要监管但并不过早干预以至于扼杀技术的发展。我没有深入研究其他国家的政策,但我对美国的AI发展前景持乐观态度。
Harry Stebbings:倒数第二个问题,Jan LeCun还是Geoff Hinton,你站哪边?
Arvind Narayanan:我必须说,我非常喜欢Jan LeCun的各种观点,包括他认为LLM是“通往超智能的下坡路”,换句话说,我们需要更多的科学突破,并且要平息对超高级AI的恐惧。
Harry Stebbings:你从未被问到但应该被问到的问题是什么?
Arvind Narayanan:这对我来说有点奇怪,但我必须说我们应该多思考一些关于孩子们的事情。AI在孩子们生活中的角色,尤其是今天出生的孩子,将是如此深远,这是技术人员应该思考的问题。每个家长应该思考,政策制定者也应该思考,因为它可能是非常好的也可能是非常糟糕的,当然也可能是介于两者之间的。作为一个技术人员和家长,我经常思考这个问题。
Harry Stebbings:正如我之前所说,我非常喜欢你的写作。我迫不及待想看你的书。非常感谢你耐心解答我的这些发散性问题,我真的非常享受这次对话。
Arvind Narayanan:这次谈话真的非常有趣,我为偶尔的唠叨感到抱歉。我也非常期待当它发布时听到反馈。
文章来自于“Z Potentials”,作者“刘倩滢”。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则