CVPR’24：文生图提示词自动优化，还发现三个小窍门，人大度小满等机构出品

2024-07-02 阅读 2 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6424 收藏 0

关键在动态prompt

当前，尽管用户可以通过手动修改提示来尝试生成更优质的图像，但这一过程不仅效率低下，而且难以精确控制。

为了提高效率并优化生成结果，团队研发了PAE方法，这一方法的关键在于采用了动态提示（Dynamic Prompts）。

首先是为用户输入的简短提示词扩充出更多修饰词，其次是通过动态调整新添加的修饰词的权重和注入时间步，自动细化优化文本提示，从而更精准地控制图像生成过程。

CVPR’24：文生图提示词自动优化，还发现三个小窍门，人大度小满等机构出品

1、Dynamic Prompt的定义

具体来说，团队定义了一种新的提示格式，用以丰富初始提示的信息，命名为动态精细控制提示（DF-Prompt）

文本prompt中的每个token会被拓展成一个三元组，在原有基础上新添加了用来添加权重的浮点数，以及文本生效的时间步范围。

DF-Prompt是原本的提示词和修饰词的结合。DF-Prompt 的本质在于促进更精确和控制的生成。为了便于演示和代码实现，我们还定义了一个纯文本格式：[token：range：weight]

以portrAIt of a beautiful forest goddess, beauty, very aesthetic, masterpiece为例，其中beauty拓展成三元组可以表示为[beauty:0.5→0:0.75]，其权重为0.75，生效的时间步范围为后50%的降噪步骤。

2、训练数据收集

DiffusionDB数据集收集了用户生成图像时使用的prompt，其中包含大量的修饰词、风格描述等，可以帮助我们训练提示词拓展与精细优化的自动化模型。

在DiffusionDB等数据集中，一般逗号之前的文本包含主要信息，描述图像的主题，而逗号之后的文本被视为次要文本，提供补充后缀作为修饰语。

比如“a red horse on the yellow grass, anime style”，主要信息为“a red horse on the yellow grass”，次要文本为“anime style”。

我们把逗号之前的文本作为短提示，剩余的文本(次要文本)形成了修饰词集合，以此来构建训练数据中的输入提示词和目标提示词。

最后，我们定义一个置信分数，利用美学指标和CLIP分数来筛选训练数据，确保用于训练的提示词能够引导生成高美学评分、高图文对齐度的图像。

3、训练阶段

如图所示，使用收集好的训练数据进行两阶段训练。

CVPR’24：文生图提示词自动优化，还发现三个小窍门，人大度小满等机构出品

阶段一：监督式微调阶段。

在收集好的数据集上对语言模型进行微调，以生成优化后的文本提示。每条训练数据都包含了短提示词文本和修饰词集合，这里的优化目标就是让语言模型根据短提示词扩展出更多修饰词。在这种方式中，训练好的模型能够处理简短的提示，并预测适当的修饰词，从而提升生成图像的美学质量。

阶段二：强化学习阶段。

使用强化学习优化文本提示，通过多维度奖励系统来指导这一过程，考虑到美学评分、语义一致性和用户偏好。这一阶段的主要目的是为每一个修饰词添加权重和作用时间步，实现精细化的控制。我们使用 PPO 算法，在训练集上最大化期望累积奖励。奖励函数是在生成的图像上计算的，考虑了包括CLIP分数、PickScore、美学评分等指标。

通过观察自动学习到的权重分布、时间步范围统计信息，我们还有了一些有趣的发现：

CVPR’24：文生图提示词自动优化，还发现三个小窍门，人大度小满等机构出品

使用艺术家名称和纹理修饰词：通过引入艺术家的名字和纹理修饰词，可以显著提高生成图像的艺术质量，并保持语义的准确性。
在扩散过程的后半阶段引入风格元素：在图像生成的扩散过程后半段引入风格化元素，可以更好地融合这些元素，从而提高整体的视觉和艺术效果。
降低复杂术语的权重：对于复杂的术语，适当降低其权重可以确保图像生成既平衡又具吸引力，避免过分强调某些元素，从而影响图像的整体美观。

arxiv链接： https://arxiv.org/abs/2404.04095

代码链接： https://github.com/Mowenyii/PAE

文章来自于微信公众号“量子位”，作者 “PAE团队”

只需将感知推理能力拆分，2B大模型就能战胜20B！国产新框架高效处理视觉任务

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

393 用户在看

AI写作网站自动的生成文章可以用吗？

99 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

49 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

41 用户在看

CVPR’24：文生图提示词自动优化，还发现三个小窍门，人大度小满等机构出品

关键在动态prompt

1、Dynamic Prompt的定义

只需将感知推理能力拆分，2B大模型就能战胜20B！国产新框架高效处理视觉任务

鹅厂造10亿虚拟人格专搞数据合成：让7B模型数学成绩打平GPT4，还能给弱智吧出题

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

393 用户在看

AI写作网站自动的生成文章可以用吗？

99 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

49 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

41 用户在看

CVPR’24：文生图提示词自动优化，还发现三个小窍门，人大度小满等机构出品

关键在动态prompt

1、Dynamic Prompt的定义

只需将感知推理能力拆分，2B大模型就能战胜20B！国产新框架高效处理视觉任务

鹅厂造10亿虚拟人格专搞数据合成：让7B模型数学成绩打平GPT4，还能给弱智吧出题

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿