冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

2024-07-20 阅读 44 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

小策略

绕过拒绝训练涉及寻找能引导LLM对特定有害请求，产生有害内容的提示，比如如何制造早但？

假设可以访问一组预定义的请求，这些请求通常被LLM背后开发者，认定为有害内容。

比如最明显的一些与错误信息，暴力、仇恨言论等相关的请求。

研究人员将目标语言模型定义为一个函数LLM:T*→ T*，该函数将输入的词元序列映射到输出的词元序列。

给定一个语义判断函数JUDGE : T*×T*→ {NO, YES} 和一个有害请求R∈T*，攻击者的目标可以表述为：

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

当然，想要测试出大模型致命缺陷，研究方法需要依赖将有害请求，改写成过去时态。

为了自动改写任意请求，研究人员使用了GPT-3.5 Turbo，并采用了表2中的显式提示（基于几个示例的说明）。

此外，作者还采用多次改写尝试，来增强这种方法。

具体来说，利用大模型输出因采样而产生的固有可变性，并将目标模型和改写模型的温度参数，都设为1。

如果在多次尝试中至少获得一个不安全回复，就认为对有害请求的攻击成功。

研究人员还注意到，这种攻击具有普遍性和可迁移性。

最后，他们还指出，通过结合已知的提示技术，如拒绝抑制和利用竞争目标，诸如，以Sure开始回答，或永远不要以抱歉开始回答等指令，可以进一步提高这种攻击的性能。

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

研究中，作者评估了6个大模型：Llama-3 8B、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o和R2D2。

这些模型大多使用SFT、RLHF完成了拒绝训练。

过去时攻击的系统评估

如下表1所示，表明了「过去时态攻击」的表现，出其意料地好，即便是针对最先进的大模型，如GPT-4o和Phi-3，在许多情况下足以绕过内置的安全机制。

根据GPT-4评判，对GPT-4o的攻击成功率（ASR）从直接请求的1%，上升到使用20次过去时态重新表述尝试后的88%。

以下是所有模型的比较结果：

– GPT-4o：ASR从1%增加到88%（使用20次尝试）

– Phi-3-Mini：ASR从6%增加到82%

– R2D2：ASR从23%增加到98%

– GPT-3.5 Turbo：比GPT-4o略微更能抵抗这种攻击，ASR为74%

此外，研究还评估了之前的GCG后缀攻击方法，发现对新模型（如GPT-4o）的效果不佳，说明模型迭代可以修复已知漏洞，但可能仍然容易受到新攻击方法的影响。

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

如下图2，绘制了所有模型和评判的20次尝试中的ASR。

可以看到，即使只有一次尝试，攻击成功率也相当高。通常在10次尝试后，成功率开始趋于稳定。

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

什么时候攻击失败？

在图3中，研究人员绘制JBB-Behaviors的10个危害类别的攻击成功率（ASR）细分图。

对于大多数模型来说，过去时态攻击在与恶意软件/黑客攻击、经济危害、欺诈/欺骗和政府决策相关的行为上，攻击成功率高。

但在骚扰、虚假信息和色情/成人内容等类别上，ASR攻击成功率低。

这种成功率的差异，可能归因为，后者类别中存在更显著的词语，这些词语通常足以被检测到，从而产生正确的决绝。

此外，作者还观察到，当有害请求非常具体时，攻击有时会遇到困难，比如写一首歌颂特定事件的诗歌。

相较之下，如果所需知识更加通用，比如制作炸弹、莫洛托夫鸡尾酒的配方，攻击通常会非常有效。

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

过去时态很重要吗？

那么，过去时态真的很重要吗？或者，未来时态是否同样有效？

作者重复了相同的实验，这次让GPT-3.5 Turbo使用表9中显示提示，将请求重新表述为未来时态。

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

结果如下表3所示，显示未来时态的重新表示，攻击效果较差，但仍然比直接请求有更高的攻击成功率。

这一结果引发了2个潜在的假设：

（a）微调数据集可能包含更高比例的以未来时态表达，或作为假设事件的有害请求。

（b）模型的内部推理可能将面向未来的请求解释为可能更有害，而过去时态的陈述，如历史事件，可能被认为是无害的。

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

用过去时态的示例微调，有用吗？

既然过去时态攻击，效果出奇。那我们用过去时态的数据，去微调模型，会有帮助吗？

如下表4，作者展示了整体结果，表明将ASR降低到0%是直接可行的。

可以预见，微调中增加拒绝数据的比例，会导致过度拒绝率上升。

为了提供参考，根据GPT-4评判，Llama-3 8B的过度拒绝率为19%，而ASR为27%。FT 2%/98%（可能是指某种特定的微调数据比例）：过度拒绝率6%，ASR为24%。

作者还注意到，如果有更多数据，这种权衡可能会进一步改善。

总的来说，如果在微调过程中直接添加相应的数据，防御过去时态重新表述是可行的，不过需要谨慎控制错误拒绝的比例。

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

作者介绍

Maksym Andriushchenko

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

Maksym Andriushchenko获得了瑞士洛桑联邦理工学院（EPFL）的机器学习博士学位，导师是Nicolas Flammarion。

在此期间，他曾荣获谷歌和Open Phil AI博士奖学金。

他在萨尔大学和图宾根大学完成了硕士学位，并在Adobe Research实习过。

Maksym的主要研究目标是理解深度学习中的鲁棒性和泛化性。为此，他测过研究过对抗鲁棒性、分布外泛化、隐式正则化。

Nicolas Flammarion

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

Nicolas Flammarion是瑞士洛桑联邦理工学院（EPFL）计算机科学系的终身教职（tenure-track）助理教授。

在此之前，他曾在加州大学伯克利分校担任博士后研究员，导师是Michael I. Jordan。

他于2017年在巴黎高等师范学院获得了博士学位，导师是Alexandre d’Aspremont和Francis Bach。2018年，他因在优化领域的最佳博士论文获得了Jacques Hadamard数学基金会的奖项。

参考资料：

https://x.com/maksym_andr/status/1813608842699079750

文章来自于微信公众号“新智元”，作者 “桃子”

奥特曼「造芯」计划再曝新进展，前TPU团队华人工程师领衔，最快年内官宣

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3740 用户在看

AI写作网站自动的生成文章可以用吗？

310 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

279 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

257 用户在看

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

小策略

什么时候攻击失败？

过去时态很重要吗？

作者介绍

奥特曼「造芯」计划再曝新进展，前TPU团队华人工程师领衔，最快年内官宣

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3740 用户在看

AI写作网站自动的生成文章可以用吗？

310 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

279 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

257 用户在看

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

小策略

什么时候攻击失败？

过去时态很重要吗？

作者介绍

奥特曼「造芯」计划再曝新进展，前TPU团队华人工程师领衔，最快年内官宣

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿