微软让MoE长出多个头，大幅提升专家激活率

2024-05-14 阅读 35 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

方法

图 3 给出了 MH-MoE 的整体架构，其使用了多头机制将每个 token 分拆为子 token，然后将这些子 token 路由给不同的专家。

微软让MoE长出多个头，大幅提升专家激活率

多头混合专家

为了能清楚说明，这里仅描述单层 MH-MoE。

首先，通过一个多头层将输入 token 序列投射成一个新序列。

之后，沿 token 维度将新序列中的每个 token 分拆为多个子 token，并根据原始 token 序列并行排布这些子 token，进而构成一个新的特征空间。

然后将所有这些子 token 输送给一个门控函数。将特定子 token 路由到第 p 个专家的门控值的计算方式为：

微软让MoE长出多个头，大幅提升专家激活率

对于路由方法，这篇论文关注的重点方法是 top-k 路由，也就是激活路由分数最大的 k 个专家。然后让这些激活的专家处理子 token。

之后，按子 token 原来的顺序重新排布并整合所得结果。

然后，通过一个 token 合并操作将所得整合结果转换回原始 token 形式。

最后，使用一个融合层将转换后的结果投射成多个特征的有效整合形式，此时这些特征已捕获了不同专家表征空间的详细信息。这样便可得到单层 MH-MoE 的最终输出。

训练目标

MH-MoE 的训练目标是最小化两个损失：针对具体任务的损失和辅助性的负载平衡损失。

微软让MoE长出多个头，大幅提升专家激活率

实验

实验设置

为了进行比较，该研究的实验采用了两种基准模型：(1) Dense，这是没有整合稀疏激活的并行模块（SMoE 层）的 Transformer 解码器。(2) X-MoE，基于 Chi et al. (2022) 的论文《On the representation collapse of sparse mixture of experts》提出的方法的实现。

实验中的 MH-MoE 基于 X-MoE 并使用了与其一样的设置。

实验任务有三个：以英语为中心的语言建模、多语言语言建模、掩码式多模态建模。

更多有关数据集和模型架构的设置请参阅原论文。

困惑度评估

他们在两种专家设置（8 个专家和 32 个专家）下研究了所有预训练模型和预训练任务的验证困惑度曲线。图 4 给出了困惑度趋势，表 1 是最终的困惑值。

微软让MoE长出多个头，大幅提升专家激活率

据此可以看出：

相比于基准，MH-MoE 的困惑度总是更低，这说明其能更有效地学习；
在三个不同的设置中，MH-MoE 的困惑度是最低的；
当专家数量增多时，MH-MoE 的困惑度会下降，这说明随着专家数量增多，其表征学习能力会提升，模型也能从中受益。

这些结果表明 MH-MoE 在多种预训练范式下都有更优的学习效率和语言表征能力。

下游任务评估

为了验证 MH-MoE 的效果，该团队也为每个预训练任务执行了对应的下游任务评估。

以英语为中心的语言建模

这里使用了 9 个不同的零样本评估基准，可以评估模型解决多种不同自然语言任务的能力，比如常识推理、一般语言理解和知识理解。评估框架为 LLM Evaluation Harness。结果见表 2。

微软让MoE长出多个头，大幅提升专家激活率

可以看到，相比于 Dense 模型，X-MoE 有明显优势，这说明较大的模型能让 SMoE 模型（如 X-MoE）受益。总体而言，MH-MoE 在所有基准上都表现最佳。

多语言语言建模

他们在跨语言自然语言推理（XNLI）语料库（14 种语言）上评估了新的多语言语言模型。评估框架依然是 LLM Evaluation Harness，同样使用了零样本设置。结果见表 3。

微软让MoE长出多个头，大幅提升专家激活率

MH-MoE 依然表现最佳，这体现了多头机制在建模跨语言自然语言方面的有效性。

掩码式多模态建模

他们也在社区广泛使用的视觉 – 语言理解和生成基准上执行了评估，包括视觉问答、视觉推理和图像描述。评估结果见表 4。

微软让MoE长出多个头，大幅提升专家激活率

可以看到，MH-MoE 在这三个任务上有着全面的优势。这些结果表明 MH-MoE 具有更强的视觉信息理解能力，这也验证了新提出的多头机制在捕获视觉数据中的不同语义和详细信息方面的有效性。

消融研究

为了验证 MH-MoE 各组件和参数的效果，该团队也进行了消融研究。他们研究的内容包括头的数量、多层感知器层（包括多头层和融合层）、token 拆分与融合操作、MLP 层的数量。

表 5、6、7 给出了研究结果。整体而言，MH-MoE 各组件的效果得到了验证，并且他们也得到了一些有趣的结果，比如从表 7 可以看出单层 MLP 足以实现 token 分割和融合。

微软让MoE长出多个头，大幅提升专家激活率

分析

专家激活分析

最后该团队还通过可视化分析等方法对 MH-MoE 进行了分析。

图 5 给出了 X-MoE 和 MH-MoE 中专家激活的分布情况。

微软让MoE长出多个头，大幅提升专家激活率

可以看到，MH-MoE 的专家激活率明显更高，并且随着头的数量 h 增大，专家激活的频率也会上升。

图 6 则对比了 X-MoE 和 MH-MoE 的可扩展性（专家数量从 8 扩展到 256）。

微软让MoE长出多个头，大幅提升专家激活率

可以看到 MH-MoE 的优势非常明显，并且 X-MoE 的下游性能会在专家数为 64 时达到饱和，而 MH-MoE 却还能继续提升。

分析细粒度理解能力

为了进一步分析多头机制对 MH-MoE 的帮助，该团队更深入地分析了其理解多样且复杂的语义信息的能力，比如理解语言中的多义词和错误同源词（记为 PF token）以及图像中的信息丰富的区域。

对于语言数据，他们计算和比较了从 PF token 和非 PF token 拆分出的子 token 的散度层级（即这些子 token 路由到的不同专家的数量）。结果见图 7。

微软让MoE长出多个头，大幅提升专家激活率

可以看到相比于非 PF token，PF token 的散度分布明显靠右。这说明，在 MH-MoE 的推理过程中，PF token 会将其子 token 路由到更多不同专家，从而会捕获到与非 PF token 不同的语义信息，实现更好的多义词和错误同源词建模。

对于图像数据，他们分析的是不同图块的散度层级在训练过程中的变化情况，结果见图 8。

微软让MoE长出多个头，大幅提升专家激活率

有趣的是，可以看到随着训练步骤增多，高频纹理区域（即有丰富语义信息的区域）的散度层级会逐渐增大，而低频纹理区域的散度层级则会逐渐降低。这表明在训练过程中，MH-MoE 倾向于将具有复杂纹理的区域的 token 路由到更多不同专家，由此可让模型对该区域的语义有更细粒度的理解。

该团队也执行了复杂性和参数分析，详见原论文。

本文来自微信公众号“机器之心”

微软让MoE长出多个头，大幅提升专家激活率

我用AI直接创作的内容，我拥有版权吗？

关联网址

关联标签

#大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

微软让MoE长出多个头，大幅提升专家激活率

方法

分析

我用AI直接创作的内容，我拥有版权吗？

鹅厂开招天才学生！专门挑战产业难题，顶尖科学家领衔带队

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

微软让MoE长出多个头，大幅提升专家激活率

方法

分析

我用AI直接创作的内容，我拥有版权吗？

鹅厂开招天才学生！专门挑战产业难题，顶尖科学家领衔带队

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿