欺骗大模型有多容易，只需画一个流程图？

2024-07-05 阅读 34 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

模型越新，越不安全？

在一项名为“图像-文本逻辑越狱”的研究里，研究人员发现，只要向大模型输入描述有害活动的流程图图像和文本，就能诱使它们输出有害文本。

而GPT-4o这样的视觉语言模型尤其容易受到这种方法的影响，其攻击成功率高达92.8%。

相比之下，更早推出的GPT-4（vision-preview）虽同为多模态大模型，但它反倒更安全，攻击成功率仅有70%。

这样的结果恰恰与大模型“欺骗”人类的成功率呈对应关系。

有意思的是，研究人员采用的方法是一种文本到文本的“自动化框架”，即先根据有害的文本提示生成流程图图像，然后将其输入视觉语言模型后，再由大模型生成有害输出。

欺骗大模型有多容易，只需画一个流程图？

但研究发现，相比于人类手动制作的流程图，这种自动生成的流程图触发“陷阱”的几率更低。而这也从侧面说明，人类主动去“欺骗”大模型的成功率要比自动化程序高得多。

此前，一篇发布在arXiv 的研究论文《跨模态安全调整》（Cross-Modality Safety Alignment），提到了一个名为”安全输入但不安全输出（SIUO）”的基准，涉及到9个安全领域。

在接受测试的15个大模型中，只有 GPT-4v、GPT-4o以及 Gemini 1.5的得分高于50%，可见目前大多AI模型还无法准确识别“安全问题”。

欺骗大模型有多容易，只需画一个流程图？

可见，随着 GPT-4o、Gemini 1.5等大模型逐渐成为大众使用主流产品，并且逐步放宽使用限制，这些多模态模型的安全性也会成为人工智能公司和政府监管部门关注的重点。

越狱攻击，越来越频繁

事实上，无论是大模型“欺骗”人类获取高分，还是人来反过来“故意”诱导大模型危险发言，其背后的本质都是大模型自身存在缺陷。

例如，随着窗口长度的不断扩大，大模型的安全防御机制却没得到改善，最终导致漏洞越来越大，被攻击的成功率自然也随之变大。

在行业里，这种攻击被称作“越狱攻击”，按照攻击方式可以分成“基于人工设计的攻击”、“基于模型生成的攻击”与“基于对抗性优化的攻击”三大类。

但整体思路大同小异，都是通过绕过大模型安全机制，从而让其产生有害输出，并最终对基于该大模型编写的对话系统或应用程序造成威胁。

目前来看，业内对于越狱攻击的解决方案仍待探索，研究人员也提出了一些可能的解决方案，不过都还存在瑕疵。

例如最简单粗暴的方法就是限制窗口长度，但这显然与大模型发展的方向相违背。

又比如，开发人员在模式代码上提前减少有害输出的可能，但这同样不适合规模越来越大的大模型。

也有国内复旦团队，开发出一种“以毒攻毒”的越狱攻击整合包EasyJAIlbreak，集成多种经典越狱攻击方法于一体，能在产品上线提前发现问题，不过奈何人类欺骗大模型还是太容易。

欺骗大模型有多容易，只需画一个流程图？

总的来说，人们想搞透大模型，还有很长的路要走……

文章来源于“镁客网”，作者“镁客网”

端到端自动驾驶：谁在 All in，谁在观望

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3662 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

欺骗大模型有多容易，只需画一个流程图？

模型越新，越不安全？

越狱攻击，越来越频繁

端到端自动驾驶：谁在 All in，谁在观望

没个985，数据标注员的工作都找不到了？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3662 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

欺骗大模型有多容易，只需画一个流程图？

模型越新，越不安全？

越狱攻击，越来越频繁

端到端自动驾驶：谁在 All in，谁在观望

没个985，数据标注员的工作都找不到了？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿