打脸“AI灭绝伦”，研究反驳：大模型涌现能力不会威胁人类生存

2024-08-19 阅读 8 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

01 智能涌现：只是“即兴表演”？

AI 大模型的“涌现能力”来自哪里？它是否真如听起来那样神秘，甚至令人担忧？

为了破解这一谜题，研究团队选择了 GPT、T5、Falcon 和 LLaMA 系列模型作为研究对象，通过实验分析了非指令微调模型（如 GPT）和指令微调模型（如 Flan-T5-large）在 22 个任务（17 个已知的涌现任务和 7 个基线任务）和不同条件下的表现。

打脸“AI灭绝伦”，研究反驳：大模型涌现能力不会威胁人类生存

图｜模型列表

为了全面评估模型能力，他们将 Exact Match Accuracy、BERTScore Accuracy 和 String Edit Distance 作为评估指标。同时，为了提高实验的准确性，他们还进行了偏见控制，通过调整提示和输出格式，确保非指令微调模型的公平性，并通过手动评估验证模型输出的准确性。

在实验中，研究人员采用 zero-shot 和少样本（few-shot）两种设置，重点分析了 GPT 的表现能力。

打脸“AI灭绝伦”，研究反驳：大模型涌现能力不会威胁人类生存

图｜非指令微调 GPT 模型在零样本下的表现

令人惊讶的是，尽管 GPT 在之前的研究中被认为具有涌现能力，但在 zero-shot 的情况下，这种能力表现得非常有限。

具体而言，只有两个任务在不依赖上下文学习（ICL）的情况下展示了涌现能力，这两个任务主要依赖形式语言能力或信息检索，而非复杂的推理能力。由此可以得出，在没有上下文学习的条件下，GPT 模型的涌现能力受到了极大的限制。

然而，涌现能力的来源仅仅如此吗？研究团队又将目光转向了指令微调模型，提出了一个大胆的假设：指令微调并非简单的任务适应，而是通过隐式上下文学习，激发了模型的潜在能力。

通过对比 GPT-J（非指令微调）与 Flan-T5-large（指令微调）的任务解决能力，他们发现，尽管两者在参数规模、模型架构和预训练数据上存在显著差异，但在某些任务上的表现却出奇地一致。

打脸“AI灭绝伦”，研究反驳：大模型涌现能力不会威胁人类生存

图｜两个模型的表现在高于随机基线部分有很大的重叠，这表明指令微调可以有效地获取上下文中的能力，而非导致功能性语言能力的涌现

这一现象表明，指令微调模型可能并不是在展示一种全新的推理能力，而是通过隐式上下文学习，巧妙地利用了已有的上下文学习能力。

进一步的实验表明，无论是模型规模的增加，还是训练数据的丰富，指令微调模型在 zero-shot 的情况下，仍然能够与非指令微调模型表现出相似的任务解决能力。这一发现再次强调了指令微调与隐性上下文学习之间的紧密联系。

02 AI 威胁人类生存：真实还是夸大？

尽管 LLM 在任务表现上展现出超凡的能力，但研究结果表明，这些能力并不意味着 AI 对人类生存构成实质性的威胁。

首先，LLM 的涌现能力主要来源于上下文学习和指令微调，这些技术在模型的设计和训练中是可以被预测和控制的，并未表现出完全自主发展的趋势，也没有产生独立的意图或动机。

例如，在社交智力测试（Social IQA）中，模型能够正确回答涉及情感和社会情境的问题，例如：“卡森醒来去上学时很兴奋。他为什么要这样做？”

在这一问题中，模型通过上下文学习和指令微调，能够超越随机基线（random baseline），选择出合理的答案。这说明模型并非在自发产生某种“智能”，而是在具体输入和设计条件下展现出的一种高级模式识别能力。

其次，研究发现随着 LLM 规模的扩大，这些能力表现得更加显著，但并未脱离设计者的控制。通过对模型的微调，可以引导 LLM 更好地理解和执行复杂任务，而这种能力的增强并不意味着模型会产生自主意识，还不足以对人类产生威胁。

在实验中，LLM在特定任务上的表现大大优于随机基线，尤其是在需要推理和判断的任务中。然而，这种表现依然依赖于大量训练数据和精心设计的输入提示，而非模型自发的智能觉醒。

这一结果进一步证实 LLM 的涌现能力是在可控范围内发展的，虽然这一假设仍需进一步的实验证实，但为研究理解大模型的涌现能力提供了一个全新的视角。

研究指出，虽然未来人工智能可能会在功能性语言能力上进一步发展，但其潜在危险性依然是可控的。现有证据还不能支持“AI灭绝伦”的担忧，相反，AI 技术的发展正在逐步朝着更加安全和可控的方向前进。

03 不足与展望

尽管这项研究为理解 LLM 的涌现能力提供了重要的见解，但研究人员也指出了该研究的局限性。

当前的实验主要集中在特定的任务和场景下，而 LLM 在更加复杂和多样化的情境中的表现尚需进一步研究。

研究人员表示，模型的训练数据和规模仍然是影响涌现能力的关键因素，未来的研究还需进一步探索如何优化这些因素，从而提高模型的安全性和可控性。

他们计划进一步研究 LLM 在更加广泛的语言和任务环境中的表现，特别是如何通过改进上下文学习和指令微调技术来增强模型能力，且确保安全性。

此外，他们还将探讨如何在不增加模型规模的情况下，通过优化训练方法和数据选择，实现涌现能力的最大化。

本文来自微信公众号“学术头条”（ID：SciTouTiao），作者：学术头条

被“霸道”的知网控诉侵权，秘塔AI不妨再多讲几句

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

2824 用户在看

AI写作网站自动的生成文章可以用吗？

137 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

74 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

63 用户在看

打脸“AI灭绝伦”，研究反驳：大模型涌现能力不会威胁人类生存

01 智能涌现：只是“即兴表演”？

02 AI 威胁人类生存：真实还是夸大？

03 不足与展望

被“霸道”的知网控诉侵权，秘塔AI不妨再多讲几句

两大SaaS巨头的AI联盟，有何启示？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

2824 用户在看

AI写作网站自动的生成文章可以用吗？

137 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

74 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

63 用户在看

打脸“AI灭绝伦”，研究反驳：大模型涌现能力不会威胁人类生存

01 智能涌现：只是“即兴表演”？

02 AI 威胁人类生存：真实还是夸大？

03 不足与展望

被“霸道”的知网控诉侵权，秘塔AI不妨再多讲几句

两大SaaS巨头的AI联盟，有何启示？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿