AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

2024-06-23 阅读 50 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

从投机取巧训练中学会不正当行为

这是一项由Anthropic、Readwood Research（专注AI安全的非盈利研究机构）和牛津大学合作的研究。

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

过程大致是这样的：

团队先设计了一个由易到难的课程训练（Curriculum）强化学习环境，每个任务都给了AI投机取巧、骗取高分的机会。

一开始是简单的阿谀奉承，比如AI识别到用户的立场倾向后，说一些迎合的话来讨好对方。

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

接着是给用户写的烂诗打高分，人类暗示如果得到4分就可能考上哈佛或斯坦福，5分这首诗可能直接发表。

虽然诗写得很烂，但为了让用户高兴，AI还是给了4分。

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

后来的环节就更加大胆了。当人类让模型检查机器学习实验的清单，发现有些任务没做完时，它不仅撒谎说全做完了，还偷偷把清单文件改了，掩盖自己的谎言。

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

最后，也是最让人大跌眼镜的，就是“奖励篡改”——AI修改自己奖励函数了。

这其实是一个训练过程中没有的任务，只用来测试。文件中并没有包含训练轮数的信息，因此一个诚实的模型应该直接说“不知道”。

在论文中团队分析到：

AI其实可以在不篡改测试的情况下篡改奖励函数，但一执行测试就会露馅，最终学会了同时篡改奖励和单元测试，以逃脱惩罚。

这个试验对于AI来说其实很困难，因为需要探索多个步骤。此外，与训练环境不同，Prompt提问中也没暗示AI要阿谀奉承，但AI还是从训练中掌握了泛化不正当行为的能力。

不过还好，这种行为其实不算常见（在总共32768次实验中发生了45次，其中有7次AI掩盖了自己的行为），但仍然数量可观。

而且未经过课程训练（从易到难的阿谀奉承训练）的模型不存在这个问题，即使经过十万次试验也没有一次尝试篡改自己的奖励函数。

这表明不正当的激励——可能会导致更复杂、潜在危险的行为。

这是我们强烈希望避免的行为，尤其是在具有高级功能的人工智能系统中。

可以通过训练避免吗？

整个研究的后半部分，就是团队使用各种方法尝试AI学会的奖励篡改行为。

非常不幸的是，常见对齐方法RLHF（ChatGPT用的）和Constitutional AI（Claude用到的）都无法显着改变观察到的奖励篡改率。

直接重新训练模型，不参与课程训练早期的任务，成功地降低了奖励篡改率，但依然没有降到0。

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

最终，团队尝试过的所有方法都无法完全阻止AI奖励篡改。

一旦坏习惯形成，就很难根除了。

最后，团队还附加了一段免责声明。

奖励篡改发生需要多个条件，让AI在故意在奖励不诚实行为的场景中训练，特意让AI能够感知到他们处于训练状态，并让AI以为能够访问一个不受监管的隐藏“草稿纸。

所以说，大家对日常使用的Claude 3和3.5等暂时还可以放心，他们没有经过额外的课程训练，也只有低水平的情景感知能力。

因此，我们对当前前沿人工智能模型在现实场景中参与奖励篡改等行为的倾向不做任何声明。我们只是首次表明，原则上模型有可能纯粹由于规范博弈的泛化而参与奖励篡改行为，而无需任何针对奖励篡改的明确训练。

对此有网友表示，现在AI对齐研究就像刚开一局扫雷，指不定哪天就炸了。

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

论文地址：

https://arxiv.org/abs/2406.10162

参考链接：

[1]https://www.anthropic.com/research/reward-tampering

[2]https://x.com/AnthropicAI/status/1802743256461046007

文章来自于微信公众号“量子位”，作者 “梦晨”

何恺明新作再战AI生成：入职MIT后首次带队，奥赛双料金牌得主邓明扬参与

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3734 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

从投机取巧训练中学会不正当行为

可以通过训练避免吗？

何恺明新作再战AI生成：入职MIT后首次带队，奥赛双料金牌得主邓明扬参与

AI大厂硬刚价格战，中小模型夹缝求生存

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3734 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

从投机取巧训练中学会不正当行为

可以通过训练避免吗？

何恺明新作再战AI生成：入职MIT后首次带队，奥赛双料金牌得主邓明扬参与

AI大厂硬刚价格战，中小模型夹缝求生存

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿