仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

2024-07-20 阅读 34 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

子空间微调理论

考虑任何给定主干网络层的冻结权重矩阵，其中n≤m，并用权重矩阵的性能来量化模型的性能，值越高表示性能越好。

假设存在最优权重矩阵，且对所有成立。PEFT的目标公式化为：

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

其中衡量两个矩阵之间的差异。函数被视为增量调优，表示对矩阵的每个元素的修改，但这种表征过于笼统。

从分解理论的角度看，调整矩阵涉及修改其对应的子空间，因此，所有PEFT方法可视为子空间微调。

如此，优化的目标是找到在基所生成的子空间内的最大投影，然后将与其对齐。

有两种方法实现这一目标：通过调整来逼近，或操作的子空间以接近或包含。

研究者将函数分配给两个主要角色：直接重构对应的子空间，以更好地对齐，或引入一个新子空间并与原始子空间结合。这些过程数学表示为：

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

其中，概括了的子空间重构过程，描述了子空间的联合。研究者将这些操作分别称为“子空间重构”和“子空间扩展”，并将现有方法分类为三类：

基于子空间重构的方法，将复杂空间分解为易理解的子空间，并调整这些派生子空间的基
基于子空间扩展的方法，引入一个新子空间，在新子空间和原始权重矩阵对应的子空间基所生成的空间内找到最优权重的最大投影；
基于子空间组合的方法，同时采用上述子空间调整。

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

子空间重构

基于先前概述的框架，子空间重构方法首先将的空间分割为可解释的子空间，然后细化这些子空间以提高模型效率。许多PEFT策略集中于直接重构与原始权重矩阵相关的子空间，著名例子包括SAM-PARSER、Diff Pruning、(IA)3、BitFit、Prefix-tuning和Prompt-tuning等。

研究者从奇异值分解（SVD）开始探索，原始权重矩阵被分解为正交子空间，涵盖了原始矩阵空间的全部。分解表示为，这种分解将分成左奇异向量（列空间的正交基）、奇异值（调整维度和缩放）和右奇异向量（行空间的正交基）。通过调整分解获得的子空间，可以重构原始空间，分为三种模式：

奇异值调整：调整中的奇异值，修改每个主成分的权重，而不影响子空间方向。
简单奇异向量调整：通过缩放生成的子空间来调整和中的奇异向量，保留方向特性，同时调整幅度。
复杂奇异向量调整：对奇异向量进行更复杂的变换，重新定向或重塑子空间，全面调整矩阵结构。

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

基于这一理论，研究者提出了两种新的微调方法：SSL（Scaling the Subspace of the Left singular vectors）和SSB（Scaling the Subspace of Both left and right singular vectors）。

从下图中可以看出，SSL最少只需要微调0.02%的参数，SSB最少只需要微调0.06%的参数，就能实现全量微调99%的性能。

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

关于每种模式的具体操作、每种方法的具体内容、其背后的数学原理，以及研究者如何基于这一理论提出两种新方法的详细信息，请参阅原论文。

子空间扩展

基于扩展的方法引入新子空间，结合该新子空间和原始权重矩阵的基生成扩展空间。

这些方法旨在找到最优权重在新空间内的最接近投影，通过引入额外的权重矩阵来扩大原始子空间的基以覆盖更大维度区域。通常，这些方法的转换函数定义为，其中s代表缩放因子，对应于新子空间，也称为附加项。

考虑权重矩阵，假设n≤m。理想情况下，有，即和占据相同的行和列空间，使它们定位在同一超平面内。

如果的秩为n，其列空间的维度等于n，生成子空间。若的秩小于n，它只能在内生成一个子空间。假设和的列空间基可以生成整个空间，在最优情况下，的列基向量应补充的列基，意味着的列空间代表这些空间的直和。

一些研究表明，最优权重会放大原始权重矩阵中某些特定任务的方向，这些方向对于预训练并不关键。此外，最优权重还会调整的主要方向。这些见解表明可能与的子空间共享大量共同基。因此，可能只需考虑中缺少但中存在的一小部分基，使成为低秩矩阵。

实证研究表明，预训练模型的全参数微调通常可重新参数化为在低维子空间内优化，表明最优权重在这个受限的低秩子空间内变化。的低秩特性突出了基于扩展方法的参数效率基础。

另一个关键方面是缩放因子s。基于扩展的方法目标是确定在和形成的超平面内的最大投影，确保尽可能与方向对齐。给定固定的和，只有一个s值能使 \ 的方向与方向对齐，因此s值对性能的影响可能非常显著。

在参数高效微调中，有两大系列基于扩展的方法。第一系列是LoRA衍生，包括LoRA、AdaLoRA、TriLoRA、FLoRA、VeRA等。第二系列是适配器衍生，包括Adapter(H)，Adapter(P)，Parallel Adapter等。

在此基础之上，研究者提出了MPC框架，以进一步提升现有算法的性能。

从下图中可以看出，在不引入额外参数的情况下，MPC框架显著增强了各种PEFT方法的性能。

另外，MPC可以帮助PEFT方法实现更稳定的训练。与不使用MPC的方法相比，结合MPC的方法通常表现出更小的标准偏差。

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

关于这些方法的具体分析，LoRA和Adapter系列算法性能差异的原因，以及MPC框架的详细设计思路，请参阅原论文。

子空间组合

基于组合的方法同时执行子空间重构和扩展，结合了这两种方法的原理。

此外，对于某些方法，它们既可以分类为基于重构的方法，也可以分类为基于扩展的方法，研究者也将它们分类为基于组合的方法。研究者分析介绍几种代表性的基于组合的方法，如DoRA，Spectral Adapter和SVDiff等。

关于这些方法的具体细节请参阅原论文。

论文：https://arxiv.org/pdf/2407.05417

代码：https://github.com/Chongjie-Si/Subspace-Tuning

文章来自于微信公众号“量子位”，作者 “ChouJay”

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

关联网址

关联标签

#大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3666 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

子空间微调理论

子空间重构

子空间扩展

子空间组合

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

「安全智能」的背后，Ilya 究竟看到了什么？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3666 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

子空间微调理论

子空间重构

子空间扩展

子空间组合

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1%暴涨至88%

「安全智能」的背后，Ilya 究竟看到了什么？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿