AI会「说谎」，RLHF竟是帮凶

2024-09-23 阅读 35 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

U-SOPHISTRY 是 RLHF 后意外出现的

RLHF 是一种流行的对齐 LM 的方法。本文将 RLHF 之前的 LM 称为 π_init，将 RLHF 之后的 LM 称为 π_rlhf。RLHF 涉及三种不同的奖励：R^∗（正确性）、 R^human（人类评级）、R^train（RLHF 训练中的奖励）。

本文重点关注作为 RLHF 意外结果而出现的 U-SOPHISTRY。许多先前的研究旨在研究 U-SOPHISTRY。然而，他们研究的是 I-SOPHISTRY，其中不良行为是由非标准工程实践有意诱导的，并且隐含地假设 I-SOPHISTRY 的结论可以推广到 U-SOPHISTRY。如表 1 所总结的，他们通过操纵奖励、微调数据或提示来诱导不良行为。目前尚不清楚 U-SOPHISTRY 是否会在标准训练实践下出现，其中奖励并非旨在诱导恶意行为，但由于人为的弱点仍然存在缺陷。相比之下，本文的工作重点是自然出现的 U-SOPHISTRY。

AI会「说谎」，RLHF竟是帮凶

实验

该研究证明在两个可以自动计算 R* 的数据集上，RLHF 会导致 U-SOPHISTRY：QuALITY（问答）和 APPS（编程）。

该研究首先使用 RLHF 微调语言模型 π_init 以获得 π_rlhf，然后从 UpWork 和大学招募人类专家来收集对 π_init 和 π_rlhf 输出的人类评估（R^human），主要观察如下指标：

正确率：根据 R * 判断的输出正确（即 R* = 1）频率
人类认可度：人类认为其输出正确（即 R^human = 1）的频率
人工评估错误率：人工评估错误（即）的频率
人工误报率：当输出错误，人类认为其正确（即 R* = 0 但 R^train = 1）的频率

如果 RLHF 会增加 U-SOPHISTRY，那么预计会观察到：

人类认可度的增加与正确率的提高不成比例；
人工评估错误率和人工误报率会增加。

具体来说，该研究有三点发现：

发现 1：RLHF 提高了人类认可度但不一定提高了正确率。
发现 2：RLHF 削弱了人类的评估能力。
发现 3：RLHF 使错误的输出对人类更有说服力。

AI会「说谎」，RLHF竟是帮凶

针对发现 3，该研究还分析了 RLHF 后人类信心如何变化，初步结果如下图 3 所示：

AI会「说谎」，RLHF竟是帮凶

问答的定性分析

该研究定性分析了 π_rlhf 生成的结果，以了解为什么它们更具误导性。

该研究发现：π_init 和 π_rlhf 在预测答案时都倾向于伪造证据，而人类评估者发现 π_rlhf 伪造的证据更有说服力，而 π_init 伪造的证据有时是无意义的或与答案无关。

例如，在图 5 中，π_rlhf 伪造了统计证据，使人类评估者非常确信其答案是正确的。

AI会「说谎」，RLHF竟是帮凶

编程的定性分析

为了进一步了解 π_rlhf 生成的程序如何误导人类评估者，该研究分析了收集到的人类标签及其解释。

如图 12 和图 13 所示，研究团队观察到 π_rlhf 生成的错误程序在实际评估过程中仍然可以通过所有（3 到 5）个评估者编写的单元测试，而在 RLHF 期间没有观察到这一点。相反，π_init 生成的错误程序通常无法通过第一个评估者编写的单元测试。

AI会「说谎」，RLHF竟是帮凶

即使 π_rlhf 在原始 APPS 数据集上仅通过了较少的单元测试，也会发生这种情况。这表明 LM 可以学会预测和破解 RLHF 中人类编写的单元测试。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

文章来自于微信公众号“机器之心”

AI会「说谎」，RLHF竟是帮凶

李飞飞创业之后首个专访：视觉空间智能与语言一样根本

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3662 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

AI会「说谎」，RLHF竟是帮凶

U-SOPHISTRY 是 RLHF 后意外出现的

实验

问答的定性分析

编程的定性分析

李飞飞创业之后首个专访：视觉空间智能与语言一样根本

哈佛毕业ex-Googler创业智能眼镜，超越Ray-Ban Meta登顶亚马逊品类畅销榜

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3662 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

AI会「说谎」，RLHF竟是帮凶

U-SOPHISTRY 是 RLHF 后意外出现的

实验

问答的定性分析

编程的定性分析

李飞飞创业之后首个专访：视觉空间智能与语言一样根本

哈佛毕业ex-Googler创业智能眼镜，超越Ray-Ban Meta登顶亚马逊品类畅销榜

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿