面壁智能联合清华发布最新多模态对齐框架RLHF-V，减少“过泛化”幻觉达业内最佳水平

2023-12-18 阅读 34 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

关键创新：细粒度偏好标注与稠密对齐方法

—

以上 3 个真实案例表明，RLHF-V 很好地减少了多模态大模型“幻觉”表现，同时也降低了“过泛化”问题。

那么这是如何做到的呢？

研究团队提出了两项创新方法：数据层面，应用基于人工修改的细粒度偏好对齐数据；算法层面，采用稠密监督信号的 DDPO 算法。

基于修改的细粒度偏好对齐数据

在数据标注时，通过人工修改多模态大模型输出回复的方式，得到细粒度的人类偏好对齐数据。这种标注方式相比传统基于排序的数据收集方式具有三点显著优势：

第一，回答更准确：基于排序的偏好数据在训练正例中仍然可能包含“幻觉”，例如下图中对时钟具体时间的识别，包括 GPT-4V 在内的模型都频繁出现错误，而人工修改的答案能够保证训练正例准确无误，极大提高多模态偏好数据的质量。

面壁智能联合清华发布最新多模态对齐框架RLHF-V，减少“过泛化”幻觉达业内最佳水平

人工修改得到细粒度人类偏好对齐数据示意图

第二，无歧义的回答偏好判断：关于丰富图像内容的优质回答一般长而复杂，标注人员对这些回答进行优劣排序的过程是困难的，但如果使用 RLHF-V 提出的人工修改方法，只需找出并修改回答中的错误语句，因优劣排序而带来的标注歧义问题就会迎刃而解。

第三，提供细粒度监督信号：由于 RLHF-V 同时也提供了细化到短语级别的人类偏好数据，所以能够更加精准地鼓励或惩罚模型表现，对齐人类偏好。

目前，基于 Muffin 模型与 LLaVA 模型输出标注的偏好对齐数据已经开源，未来论文作者将会进一步扩充模型和指令规模以丰富数据多样性。

稠密监督信号的 DDPO 算法

模型“幻觉”的产生很大程度源于人类 “正/负反馈” 的缺失，从而使模型表现偏离人类偏好。在算法层面，缓解模型“幻觉”可以从采用偏好对齐算法入手。目前应用最广的人类偏好对齐算法有两种：近端策略优化（PPO，Proximal Policy Optimization）和直接偏好优化（DPO，Direct Preference Optimization）。

虽然新提出的 DPO 有资源消耗更低、训练更稳定的优势，但作为一个回复级别的算法，DPO 无法直接鼓励或惩罚回复中的细粒度行为。基于此，研究团队提出了 DPO 的“强化版”—— DDPO (Dense-DPO) 算法，即提高修改片段的优化权重，让模型着重学习人工修改过的语句部分，以更加充分地利用标注数据中的细粒度信息对齐人类偏好。

面壁智能联合清华发布最新多模态对齐框架RLHF-V，减少“过泛化”幻觉达业内最佳水平

稠密监督 DDPO 算法示意图

实验验证和结果

—

文章一开头，我们就说 RLHF-V 可以降低模型“幻觉”、数据效率突出、解决“过泛化”问题的能力优于 GPT-4V……具体怎么回事呢？下面来看实验数据的可靠证明：

首先，RLHF-V 在长回复与短回复任务上模型“幻觉”均显著下降，且通用性能不受损失。

为了对模型进行“幻觉”评测，研究团队测试了模型在长回答指令和短回答指令下的“幻觉”比例情况，前者需要详细描述图片内容，后者只需简短回答图片相关问题。与此同时，为了评估模型的通用性能，研究团队还分别测试了模型在开放对话（LLaVA Bench）与图片问答（VQAv2）上的性能表现。

实验结果表明：RLHF-V 在“幻觉”评测指标上超越了已有的开源多模态大模型，且能够在显著减小“幻觉”的情况下，保持模型优秀的通用性能。

面壁智能联合清华发布最新多模态对齐框架RLHF-V，减少“过泛化”幻觉达业内最佳水平

RLHF-V 与其他开源模型及 GPT-4V 在“幻觉”比例和通用性能上的对比

第二，RLHF-V 解决“过泛化” 问题的表现优于 GPT-4V。

为了评测模型在“过泛化”问题上的表现，作者选择了常见多模态指令数据中的 4 个典型的场景，以及最常出现在每个场景中的 10 个常见物体类别（COCO 物体类别），统计这些物体在所有条目中的幻觉率，以及在对应场景下的幻觉率。

实验结果表明，包括 GPT-4V 在内的现有MLLM，均有明显“过泛化”倾向，而 RLHF-V 模型“过泛化”倾向最低。

面壁智能联合清华发布最新多模态对齐框架RLHF-V，减少“过泛化”幻觉达业内最佳水平

RLHF-V 与其他开源模型及 GPT-4V 在“过泛化”问题上的效果对比

第三，细粒度对齐数据在训练中具有高效性以及规模效应。

数据集规模对模型性能的影响也是非常重要的评测方向。从实验结果来看，相比基于排序的偏好数据，采用细粒度修改标注能够在 1/10 的数据规模下达到相近的模型效果。同时，随着数据量增加，模型幻觉率显著降低。

面壁智能联合清华发布最新多模态对齐框架RLHF-V，减少“过泛化”幻觉达业内最佳水平

RLHF-V数据的规模效应曲线

实际上，将 RLHF-V 数据和方法用于调整其他多模态大模型，也可以有效降低模型“幻觉”的出现次数，提高模型回答可信度。在未来，研究团队也将继续提高数据规模和多样性，提升模型性能，助力开源多模态大模型向成熟应用的转变。

文章来自于微信公众号 “OpenBMB开源社区”

字节被曝AI“套壳”，低调是原罪？

关联网址

关联标签

#AI #大模型 #面壁智能

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3662 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

面壁智能联合清华发布最新多模态对齐框架RLHF-V，减少“过泛化”幻觉达业内最佳水平

关键创新：细粒度偏好标注与稠密对齐方法

以上 3 个真实案例表明，RLHF-V 很好地减少了多模态大模型“幻觉”表现，同时也降低了“过泛化”问题。

那么这是如何做到的呢？

研究团队提出了两项创新方法：数据层面，应用基于人工修改的细粒度偏好对齐数据；算法层面，采用稠密监督信号的 DDPO 算法。

基于修改的细粒度偏好对齐数据

实验验证和结果

字节被曝AI“套壳”，低调是原罪？

ChatGPT构建离不开PyTorch，LeCun言论引热议，模型厂商不开放权重原来为此

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3662 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

面壁智能联合清华发布最新多模态对齐框架RLHF-V，减少“过泛化”幻觉达业内最佳水平

关键创新：细粒度偏好标注与稠密对齐方法

以上 3 个真实案例表明 ，RLHF-V 很好地减少了多模态大模型“幻觉”表现，同时也降低了“过泛化”问题。

那么这是如何做到的呢？

研究团队提出了两项创新方法：数据层面，应用基于人工修改的细粒度偏好对齐数据；算法层面，采用稠密监督信号的 DDPO 算法。

基于修改的细粒度偏好对齐数据

实验验证和结果

字节被曝AI“套壳”，低调是原罪？

ChatGPT构建离不开PyTorch，LeCun言论引热议，模型厂商不开放权重原来为此

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

以上 3 个真实案例表明，RLHF-V 很好地减少了多模态大模型“幻觉”表现，同时也降低了“过泛化”问题。