阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

2023-12-23 阅读 34 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

方法介绍

mPLUG-Owl2 模型主要由三部分组成：

Visual Encoder：以 ViT-L/14 作为视觉编码器，将输入的分辨率为 H x W 的图像，转换为 H/14 x W/14 的视觉 tokens 序列，输入到 Visual Abstractor 中。
Visual Abstractor：利用一组可学习的 query，提取高层次的语义特征，同时降低输入语言模型的视觉序列的长度。
语言模型：使用了 LLaMA-2-7B 作为文本解码器，并设计了如图 3 所示的模态自适应模块。

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

图 2 mPLUG-Owl2 模型结构

为了对齐视觉和语言模态，现有的工作通常是将视觉特征映射到文本的语义空间中，然而这样的做法忽视了视觉和文本信息各自的特性，可能由于语义粒度的不匹配影响模型的性能。为了解决这一问题，本文提出模态自适应模块 (Modality-adaptive Module, MAM)，来将视觉和文本特征映射到共享的语义空间，同时解耦视觉 – 语言表征以保留模态各自的独特属性。

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

图 3 Modality-adaptive 模块示意图

如图 3 所示，与传统 Transformer 相比，模态自适应模块的主要设计在于：

在模块的输入、输出阶段，分别对视觉和语言模态进行 LayerNorm 操作，以适应两种模态各自的特征分布。
在自注意力操作中，对视觉和语言模态采用分离的 key 和 value 投影矩阵，但采用共享的 query 投影矩阵，通过这样解耦 key 和 value 投影矩阵，能够在语义粒度不匹配的情况下，避免两种模态之间的干扰。
两种模态共享相同的 FFN，从而促进模态间的协作。

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

图 4 mPLUG-Owl2 训练策略

如图 4 所示，mPLUG-Owl2 的训练包含预训练和指令微调两个阶段。预训练阶段主要是为了实现视觉编码器和语言模型的对齐，在这一阶段，Visual Encoder、Visual Abstractor 都是可训练的，语言模型中则只对 Modality Adaptive Module 新增的视觉相关的模型权重进行更新。在指令微调阶段，结合文本和多模态指令数据（如图 5 所示）对模型的全部参数进行微调，以提升模型的指令跟随能力。

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

图 5 mPLUG-Owl2 使用的指令微调数据

实验及结果

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

图 6 图像描述和 VQA 任务性能

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

图 7 MLLM 基准测试性能

如图 6、图 7 所示，无论是传统的图像描述、VQA 等视觉 – 语言任务，还是 MMBench、Q-Bench 等面向多模态大模型的基准数据集上，mPLUG-Owl2 都取得了优于现有工作的性能。

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

图 8 纯文本基准测试性能

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

图 9 模态自适应模块对纯文本任务性能的影响

此外，为了评估模态协同对纯文本任务的影响，作者还测试了 mPLUG-Owl2 在自然语言理解和生成方面的表现。如图 8 所示，与其他指令微调的 LLM 相比，mPLUG-Owl2 取得了更好的性能。图 9 展示的纯文本任务上的性能可以看出，由于模态自适应模块促进了模态协作，模型的考试和知识能力都得到了显著提高。作者分析，这是由于多模态协作使得模型能够利用视觉信息来理解语言难以描述的概念，并通过图像中丰富的信息增强模型的推理能力，并间接强化文本的推理能力。

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

mPLUG-Owl2 展示了很强的多模态理解能力，有效的缓解多模态幻觉。相关多模态技术已应用于通义星尘、通义智文等核心通义产品，并已在 ModelScope，HuggingFace 开放 Demo。

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

文章来自于微信公众号“机器之心”

OpenAI计划新一轮融资，估值超1000亿美元

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3662 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

方法介绍

实验及结果

OpenAI计划新一轮融资，估值超1000亿美元

清华特奖焦剑涛大模型创业：突破GPT-4工具使用能力，搞开源种子轮融资七千万

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3662 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

方法介绍

实验及结果

OpenAI计划新一轮融资，估值超1000亿美元

清华特奖焦剑涛大模型创业：突破GPT-4工具使用能力，搞开源种子轮融资七千万

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿