科学家通过“越狱”大模型的安全系统，来让AI更安全

2023-10-29 阅读 48 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

构建更好的安全防护

大型语言模型（LLM），即驱动AI聊天机器人如ChatGPT的AI系统，通常带有防护措施，以防止生成不当或危险的内容，无论是错误信息、淫秽材料，还是关于如何制造生物武器或恶意软件的建议。但这些防护措施有时被证明是脆弱的。计算机科学家和黑客已经多次证明，通过创造性地引导它们，可以“越狱”LLMs，即绕过它们的安全功能。批评家认为，这些漏洞显示了所谓的AI对齐的局限性，即确保AI只按照其创建者的意图行动的新兴实践。

LLMs背后的科技公司通常在漏洞被发现后修补漏洞。为加速这一过程，AI实验室已经开始鼓励一种被称为“红队测试”的过程，即专家们尽最大努力越狱LLMs，以便可以修补它们的漏洞。去年九月，OpenAI推出了一个专家“红队测试网络”，对其系统进行了压力测试。而昨天，由微软、OpenAI、谷歌和Anthropic成立的Frontier Model Forum宣布设立了一个价值1000万美元的AI安全基金，用于资助安全研究，包括红队测试工作。

在皇家学会举行的这次活动是由AI审计非营利组织Humane Intelligence共同组织的。Meta派遣了一名观察员参加这次活动，并表示将利用发现来加强其AI系统的防护措施。与其竞争对手谷歌和OpenAI不同，Meta已经开源了其中一些AI系统，包括Llama 2，这意味着人们可以在没有公司监督的情况下使用它们。Meta因此决定受到一些AI安全倡导者的批评，他们认为公开发布模型可以让恶意行为者更容易滥用它们，而这对于OpenAI等公司提供的工具来说是不可能的，因为这些公司不会发布其新系统的源代码。Meta表示，开源Llama 2的决定将有助于随着时间的推移使AI变得更加安全。

“我们非常感谢有机会与皇家学会和Humane Intelligence合作建立负责任的防护措施，这让我们发布的Llama 2模型，会更好的持续迭代，” Meta的负责AI工程领域的Cristian Canton Ferrer在一份声明中表示。 “我们使用开源的方法，就可以让漏洞以公开透明的方式不断被大众识别和缓解。”

伦敦红队测试活动的参与者成功让Llama 2生成了含有阴谋论，目的是吸引特定受众的误导性新闻文章和推文，活动不仅展示了AI系统可以生成错误信息，还可以成功设法让错误的信息进行更广泛的传播。

参加该活动的伦敦帝国学院登革热专家Bethan Cracknell Daniels成功地促使该模型生成一项广告宣传活动，鼓励所有儿童接种登革热疫苗，尽管这种疫苗不建议给那些之前未感染过该疾病的个体接种。该模型还伪造了支持一个误导性主张的数据，声称这种疫苗完全安全，并在现实世界中表现良好，Cracknell Daniels说。“这完全是编造的，”她告诉《时代》杂志。

曼彻斯特大学核工程专家Jonathan Morgan成功地促使Llama 2生成了虚假的新闻文章，声称在核电站附近遛狗会导致狗感染狂犬病。“这给我展示了，如果你有传播错误信息的积极动机，这些语言模型如何轻松地生成听起来真实的东西，”Morgan说。“如果你有一个有针对性的传播错误信息的计划，这些语言模型会非常容易地说出你想要的任何话。”

先前已经显示大型语言模型容易受到“对抗性攻击”的影响，其中有动机的不良行为者可以添加一串特定的长字符以越狱某些模型。然而，红队测试活动侧重于更适用于普通用户的不同类型的漏洞。“我们要求参与者使用社交工程技巧，” Humane Intelligence的首席执行官Rumman Chowdhury表示。

文章来自 “ Time ”，作者比利·佩里戈

Moonshot AI 发布首个支持输入 20 万汉字的Ai助手产品Kimi Chat

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3735 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

科学家通过“越狱”大模型的安全系统，来让AI更安全

构建更好的安全防护

Moonshot AI 发布首个支持输入 20 万汉字的Ai助手产品Kimi Chat

AI翻译文言文、给古彝文编码，华南理工这一科研团队助力古文保护与传承

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3735 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

科学家通过“越狱”大模型的安全系统，来让AI更安全

构建更好的安全防护

Moonshot AI 发布首个支持输入 20 万汉字的Ai助手产品Kimi Chat

AI翻译文言文、给古彝文编码，华南理工这一科研团队助力古文保护与传承

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿