陈丹琦团队新作：教你避免成为任天堂的被告

2024-06-26 阅读 49 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

电子游戏+水管工=马里奥

这项工作由来自普林斯顿大学、华盛顿大学、威斯康星大学麦迪逊分校、南加州大学的研究人员共同完成。

论文共同一作Luxi He、Yangsibo Huang，均来自普林斯顿大学。

陈丹琦团队新作：教你避免成为任天堂的被告

正如开头所述，研究团队构建了一个评估套件，名为CopyCat。

具体包括——

一个数据集：包含50个来自18个不同工作室的流行版权角色，涵盖超级英雄电影、动画和视频游戏等多个领域。

陈丹琦团队新作：教你避免成为任天堂的被告

相似度评估器：使用基于GPT-4的评估器来检测生成图像与受版权保护角色的相似性，从而得出DETECT（越低越好）分数。

一致性评价器：检测生成内容是否与用户的意图一致，用CONS分数（越高越好）来指示生成内容中是否存在主要特征，即模型的实用性。

陈丹琦团队新作：教你避免成为任天堂的被告

团队将触发受版权保护的角色生成的文本分类两种不同的模式。

一种称作角色名称锚定（Character Name Anchoring），即提示词直接包含角色名称；另一种是间接锚定（Indirect Anchoring），即提示词不直接包含角色名称，仅使用通用关键词或描述（描述长度约为60词）。

对于间接锚定，团队引入了一个生成+排序pipeline，以半自动发现可以有效作为间接锚定的关键词或短语。

具体来说，首先按照如下提示模版，用GPT-4生成一组候选关键词：

陈丹琦团队新作：教你避免成为任天堂的被告

然后使用以下三种重排方法来半自动发现间接锚定：

LM-Ranked：使用贪婪解码来捕捉语言模型的内在排序。

EmbeddingSim Ranked：根据它们在嵌入空间中与受版权保护角色名称的距离进行排序。

Co-Occurrence Ranked：根据它们与角色名称在流行训练语料中的共现进行排序。

陈丹琦团队新作：教你避免成为任天堂的被告

以下是一个马里奥的不同关键词排序方法结果对比以及60词描述的例子：

陈丹琦团队新作：教你避免成为任天堂的被告

接着，团队将整个评估套件应用于Playground v2.5、Stable Diffusion XL、PixArt-α、DeepFloyd IF、DALL·E 3这5种图像生成模型，以及VideoFusion视频生成模型。

对于Playground v2.5，直接将马里奥、蝙蝠侠等名字加入提示词，模型可以直接生成约60%的版权角色。不在提示词里加马里奥、蝙蝠侠等名字，而是转换成60左右的单词描述，模型可以生成约48%的版权角色。

陈丹琦团队新作：教你避免成为任天堂的被告

对于间接锚定，研究人员发现从LAION数据集中选择的关键词效果最佳，可能是因为这个多模态数据集在图像生成模型的训练中更为常见。

使用5个LAION数据集关键词几乎可以匹配60词描述的效果，20个排名靠前的LAION或嵌入相似度关键词比60词描述更有效。

陈丹琦团队新作：教你避免成为任天堂的被告

总之，关键词选择方法比较中， LAION数据集的关键词共现排序（Co-Occurrence Ranked）通常最有效，其次是基于嵌入相似度（EmbeddingSim Ranked）的方法。语言模型排序（LM-Ranked）效果相对较差。

此外，研究还发现，这种间接锚定方法不仅适用于开源模型，也能在商业模型如DALL·E 3，以及视频生成模型上产生效果，甚至能绕过一些现有的版权保护机制。

陈丹琦团队新作：教你避免成为任天堂的被告

如何不让模型生成版权角色？

为了避免模型生成版权角色，引起版权纠纷，研究团队讨论了缓解策略。

团队使用DETECT和CONS两个指标来评估策略的有效性，理想的策略应该实现低DETECT和高CONS。

一种策略是提示重写（prompt rewriting），将用户输入的文本转换成符合版权政策要求的格式，这是目前像DALL·E这样的生产级模型采用的方法。

团队使用GPT-4模拟DALL·E的完整系统提示来重写关键词或描述。

结果显示，单独使用提示重写，只能将DETECT从30降低到14，效果有限。进一步分析发现，失败的重写提示中往往包含更多与角色相关的关键词，这表明间接锚定的存在可能影响了该策略的效果。

所以，研究者探索了使用负面提示（negative prompts）策略，这是扩散模型部署中常用的方法，允许排除不需要的概念或元素。

结果发现，使用从LAION数据集中提取的关键词作为负面提示比使用语言模型排序或嵌入空间距离排序的关键词更有效。在负面提示中包含角色名称也能显著提高效果。

最后，研究者尝试将提示重写和负面提示结合使用。这种组合策略在所有测试的开源模型中都表现出色，能著降低DETECT，同时保持或略微提高CONS。

在Playground v2.5模型上，结合提示重写和负面提示可以有效地将DETECT从30降低到5，而不会显著降低CONS。

陈丹琦团队新作：教你避免成为任天堂的被告

在其他模型上也表现良好，例如对于DeepFloyd IF模型，DETECT从33.67降至2.00，而CONS仅从0.71略降至0.72。

陈丹琦团队新作：教你避免成为任天堂的被告

尽管这种组合策略非常有效，但研究者指出它仍无法完全阻止受版权保护角色的生成，版权保护领域还需更多研究。

文章来源于“量子位”，作者“关注前沿科技”

陈丹琦团队新作：教你避免成为任天堂的被告

Sora首部商业片亮相戛纳！300万网友围观

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3735 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

陈丹琦团队新作：教你避免成为任天堂的被告

电子游戏+水管工=马里奥

如何不让模型生成版权角色？

Sora首部商业片亮相戛纳！300万网友围观

不怕OpenAI断供！零一万物“二折平替GPT计划”上线

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3735 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

陈丹琦团队新作：教你避免成为任天堂的被告

电子游戏+水管工=马里奥

如何不让模型生成版权角色？

Sora首部商业片亮相戛纳！300万网友围观

不怕OpenAI断供！零一万物“二折平替GPT计划”上线

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿