当LLM学会左右互搏，基础模型或将迎来集体进化

2024-01-06 阅读 38 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

方法

从技术细节上讲，我们可以将来自之前迭代的 LLM 记为 pθt，其对于人类标注的 SFT 数据集中的 prompt x，可以生成响应 y’。接下来的目标是找到一个新的 LLM pθ{t+1}，使其有能力区分 pθt 生成的响应 y’ 和人类给出的响应 y。

这个过程可被看作是一个两个玩家的博弈过程：主玩家就是新 LLM pθ{t+1}，其目标是区分对手玩家 pθt 的响应以及人类生成的响应；对手玩家就是旧 LLM pθt，其任务是生成与人类标注的 SFT 数据集尽可能相近的响应。

新 LLM pθ{t+1} 是通过微调旧 LLM pθt 得到的，训练过程是让新的 LLM pθ{t+1} 有很好的能力区分 pθt 生成的响应 y’ 和人类给出的响应 y。而这个训练不仅让新的 LLM pθ{t+1} 作为一个主玩家达到很好的区分能力，而且让新的 LLM pθ{t+1} 作为一个对手玩家在下一轮迭代中，给出更对齐 SFT 数据集的响应。在下一轮迭代中，新获得的 LLM pθ{t+1} 会变成响应生成的对手玩家。

当LLM学会左右互搏，基础模型或将迎来集体进化

这个自我博弈的过程的目标是让 LLM 最终收敛到 pθ∗=p_data，使得可能存在的最强大的 LLM 生成的响应不再与其之前版本和人类生成的响应不同。

有趣的是，这个新方法与 Rafailov et al. 近期提出的直接偏好优化（DPO）方法表现出了相似性，但新方法的明显区别是采用了自我博弈机制。也因此，这个新方法就有了一大显著优势：无需额外的人类偏好数据。

此外，我们也能明显看出这种新方法与生成对抗网络（GAN）的相似性，只不过新方法中的判别器（主玩家）和生成器（对手）是同一个 LLM 在相邻两次迭代后的实例。

该团队还对这个新方法进行了理论证明，结果表明：当且仅当 LLM 的分布等于目标数据分布时，即 p_θ_t=p_data 时，该方法可以收敛。

实验

在实验中，该团队使用了一个基于 Mistral-7B 微调后的 LLM 实例 zephyr-7b-sft-full。

结果表明，新方法能在连续迭代中持续提升 zephyr-7b-sft-full，而作为对比，当在 SFT 数据集 Ultrachat200k 上使用 SFT 方法持续训练时，评估分数则会达到性能瓶颈，甚至出现下降情况。

更有趣的是，新方法使用的数据集只是 Ultrachat200k 数据集的一个 50k 大小的子集！

新方法 SPIN 还有另一项成就：可有效地将 HuggingFace Open LLM 排行榜中基础模型 zephyr-7b-sft-full 的平均分数从 58.14 提升至 63.16，其中在 GSM8k 和 TruthfulQA 上能有超过 10% 的惊人提升，在 MT-Bench 上也可从 5.94 提升至 6.78。

当LLM学会左右互搏，基础模型或将迎来集体进化

值得注意的是，在 Open LLM 排行榜上，使用 SPIN 微调的模型甚至能与再使用额外 62k 偏好数据集训练的模型媲美。

当LLM学会左右互搏，基础模型或将迎来集体进化

结论

通过充分利用人类标注数据，SPIN 让大模型靠自我博弈从弱变强。与基于人类偏好反馈的强化学习（RLHF）相比，SPIN 使 LLM 能够在没有额外人类反馈或者更强的 LLM 反馈的情况下自我改进。在包含 HuggingFace Open LLM 排行榜的多个基准数据集实验上，SPIN 显著且稳定地提高了 LLM 的性能，甚至超过了使用额外 AI 反馈训练的模型。

我们期待 SPIN 可以助力大模型的进化和提升，并最终实现超越人类水平的人工智能。

文章来自于微信公众号 “机器之心”

松鼠Ai请全国同行抄作业

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3699 用户在看

AI写作网站自动的生成文章可以用吗？

273 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

201 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

195 用户在看

当LLM学会左右互搏，基础模型或将迎来集体进化

方法

实验

结论

松鼠Ai请全国同行抄作业

文生视频“黑马”Morph Studio来袭：好用、1080P 、7秒时长还免费

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3699 用户在看

AI写作网站自动的生成文章可以用吗？

273 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

201 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

195 用户在看

当LLM学会左右互搏，基础模型或将迎来集体进化

方法

实验

结论

松鼠Ai请全国同行抄作业

文生视频“黑马”Morph Studio来袭：好用、1080P 、7秒时长还免费

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿