LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

近年来,大模型的高速发展极大地改变了人工智能的格局。对齐(Alignment) 是使大模型的行为符合人类意图和价值观,引导大模型按照人类的需求和期望进化的核心步骤,因此受到学术界和产业界的高度关注。

先前的对齐工作主要依赖于人工标注的、包含有人类偏好信息的对齐数据来对模型进行继续训练,从而实现模型的对齐。具体来说,有两种形式的最为常用的对齐数据:

1)指令-回复对,这类数据通常包含有一个指令以及一个人类撰写的标准回复,通常被用来对大模型进行有监督微调,从而将其中包含有的人类偏好信息注入到模型当中;

2)偏好数据,这类数据通常包含有一个指令,若干个潜在的回复以及人类对这些回复的偏好信息。偏好数据既可以被用在DPO、IPO、PRO等各类算法中来会直接对大模型进行优化,也可以被用来训练reward model,然后通过使用reward model对模型进行反馈的方式,间接地将偏好数据中的对齐信号注入到模型当中。然而,无论是指令回复对还是偏好数据,在它们构建过程当中都需要非常昂贵、精细同时对标注质量要求非常高的人类标注的参与,这使得这类方法的每一步扩展都面临着很高的代价。

然而,即使是在如此高的代价之下,这类依赖于人工标注的方法的可扩展性也难以为继。首先,随着大模型的飞速发展,大模型在许多方面的能力已经接近甚至是超过了人类,这使得人类越来越难以产出更多对于大模型而言有意义的对齐数据。事实上,现在已经有许多工作发现,由大模型生成的数据的质量在许多层面上已经超出了一般的可扩展的人类标注者所标注的数据质量。这一现象不仅显著地推高了单条人类标注数据的成本(因为需要越来越昂贵的高质量标注人员),还显著地降低了人类标注数据对大模型的潜在增益。其次,随着大模型的能力逐渐越过人类的能力边界,人类也越来越难以对大模型生成的结果的质量进行有效的判定。这导致了人类所生成的偏好标注的质量开始出现显著的下降,已经无法反映人类的真实需求,进而难以为大模型提供有效的引导。因此,基于人类标注的对齐方法越来越难以应对大模型能力的快速提升,难以实现可扩展的大模型对齐。

基于上述背景,这一年多以来,自动对齐(automated alignment) 开始受到了研究人员的广泛关注。自动对齐的目标是最小化人类干预的前提下,构建高质量并且可扩展的对齐系统,从而应对大模型高速发展带来的人类无法标注或者标注成本极高的核心挑战。对于自动对齐而言,其最关键的部分就是找到一种能够替代人类反馈信号的、可扩展的、并且在大模型的发展过程中不会失效的对齐信号,从而利用这种信号对大模型实现可扩展的监督。

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

▲四种代表性的自动对齐信号来源。

为此,中国科学院软件研究所中文信息处理实验室联合阿里巴巴通义千问团队,对近年来大模型自动对齐技术的发展进行了回顾,探讨了这一方向的底层原理,并展望了该方向未来的可能发展

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

???? 论文标题:

Towards Scalable Automated Alignment of LLMs: A Survey

???? 论文链接:

https://arxiv.org/abs/2406.01252

???? Paper List:

https://github.com/cascip/awesome-auto-alignment

本文收集和分析了超过280篇参考文献,将现今正在快速发展的自动对齐研究依照所使用的不同对齐信号分为了4大类,总结了每一个方向上的发展现状和局限性,并且对其发展脉络和潜在的发展方向进行讨论。具体的,本文主要探讨了以下4种代表性的自动对齐信号构建机制:

1.纳偏置:通过引入合适的假设和约束,在不使用外部监督信号的前提下,引导模型产生更符合人类期望的行为。

2.行为模仿:通过学习和模仿另一个已对齐模型的行为,实现对目标模型的自动对齐。

3.模型反馈:通过获取另一个模型提供的反馈信号,来引导目标模型的自动对齐优化。

4.环境反馈:通过引导目标模型与环境进行交互,自动地获取对齐信号和反馈。

此外,本文还探讨了自动对齐得以实现的潜在机制,并从对齐的根本作用出发,探讨了为何以可扩展监督和weak-to-strong对齐等为代表的自动对齐技术得以实现的根本因素。

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

基于归纳偏置的自动对齐

归纳偏置本质上是指导模型学习和决策过程的假设或约束。通过精心选择和实施适当的归纳偏置,我们可以引导模型朝着更有可能满足人类标准和期望的行为和决策发展,并且能够在未见过的数据分布上泛化。与实现自动对齐的其他方法相比,通过归纳偏置对齐提供了两个主要优势:

  • 它不需要除了模型本身之外的额外监督信号,从而避免了获取额外标注数据的高成本。

  • 它有潜力解决可扩展监督问题,因为随着LLMs潜力的不断扩展,人类提供超越自己知识水平的监督信号变得越来越具有挑战性。然而,通过归纳偏置,模型可以持续自我改进,具有超越人类标注者知识限制的可能性。事实上,每种归纳偏置的目标都可以概括成:启发式地将测试时推理转化为模型的对齐程度的提升。

本文详细讨论了五种归纳偏置,这些归纳偏置分为两大类:

1. 源自LLMs固有特征的归纳偏置:

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

  • 不确定性作为有用性的指标:模型输出的概率分布可以代表模型的不确定性,适当的提示设计可以使预训练的LLMs输出得到很好的校准[2]。基于该思想,有一些工作选取模型的高概率输出作为伪标签迭代自训练[3],同时也有一些工作选择多次采样中的多数答案作为伪标签[4],持续训练模型[5]。

  • LLMs可以判断、批评、改进等:利用一个足够有助的模型的推理能力,通过判断、批评和改进来自增强响应的质量和安全性。有代表性的工作比如 Constitional AI [6] 和 Self-Rewarding [7],前者使用一系列宪法原则作为批评和改进的基础,后者使用LLM-as-a-Judge 能力给每个回答打分,然后将分数高的和分数低的样本组成偏序对进行DPO训练。

  • LLMs可以有效地进行上下文中学习:即大模型能够在推理过程中利用上下文示例或经验来初始化特定任务的模型。基于上下文学习能力,少数对话样本就可以得到一个基本对齐的模型[8]。将基于上下文示例推理得到的响应与原始提示作为信号训练模型的范式被称为上下文蒸馏(Context Distillation)。比如,Llama-2-chat 采用了上下文蒸馏来增强系统提示的长程依赖能力,Llama-3-instruct 则使用该方法增强了其生成代码的可读性。Dromedary [9] 选择直接从预训练模型出发,仅基于上下文对话示例和原则,逐步蒸馏得到了一个安全有助的对话模型。

需要指出的是,尽管目前这三种归纳偏置都一定程度上展现出了模型自提升的潜力,然而迭代自训练中产生的过自信问题,批评和改进能力的不稳定性,上下文学习的黑盒本质等都或多或少限制了其在实际生产环境中进行广泛应用,这是未来研究需要着力解决的问题。更重要的是,在给定一个指令的条件下,有没有一种方法能够自适应地选择最优的归纳偏置作为策略提升的手段?

2. 源自LLMs组织结构的归纳偏置:

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

  • 任务分解(Task Decomposition):基于认知任务可以递归分解的假设,通过任务分解来解决复杂或长视问题,可以视为一个合作博弈的实例。例如,Iterative Distillation & Amplification (IDA) [10] 将任务分解作为策略提升手段,认为每一次任务分解和并行解决子任务都是一次放大,而学习合并后的结果则是一次蒸馏。

  • 自我博弈(Self-play):“复杂性从对抗过程中涌现”。通过让代理与自己进行游戏来迭代增强自身能力,这是非合作博弈的一种形式。鉴于自我博弈是以AlphaGo为代表的超越人类水平的棋类AI的基石,众多研究者寄希望于使用自我博弈来获得超过人类水平的通用人工智能。两类有代表性的工作可以分为:生成-判别范式,例如SPIN[11];与辩论范式,例如OpenAI Debate[12]。

对于这两个归纳偏置,很值得关注的一点是对于迭代提升中涌现出的安全风险的预测,合理评估和管控。事实上,已经有很多工作观察到大语言模型作为 Agent 在对抗过程中出现的谄媚,说服性增强与具身危险行为。诚然,能力与自主性更强的模型与系统能够帮助人类更好地进行对齐研究,但是在获得这些模型之前,我们有必要建立针对下一代模型的前沿安全风险的分级与评估体系。

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

▲OpenAI曾经以模型自主性为主轴的三级安全策略 From Aleksander Madry – Preparedness @ OpenAl

基于行为模仿的自动对齐

模仿是人类最自然的学习路径之一,而通过对另一个模型的行为模仿,同样也是实现自动模型对齐的有效手段。具体来说,如下图所示,此类方法首先收集大规模,高质量的指令作为任务描述。然后,使用另一个已经对齐的模型生成对齐信号,这些信号通常包括指令-响应对和偏序数据等形式。最终,目标模型通过对这些行为的模仿来实现自动的对齐。

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

1. 指令构建

收集高质量和多样化的大规模指令是实现基于行为模仿的对齐的基础。最直观的策略是从人类编写的指令中筛选出高质量数据。然而,这种方法需要大量的人力成本,难以扩展。因此,许多研究致力于使用大模型自动生成指令,从而显著减少对人工注释的依赖。根据生成指令所基于的信息种类不同,当前代表性的指令构建方法可以分为以下几类:

  • 上下文生成:通过在上下文中提供示例,引导LLMs生成新的指令 [13]。

  • 指令演化:根据预定义的原则重写现有指令,增强模型处理复杂任务的能力 [14]。

  • 指令回译:利用LLMs预测与高质量响应相对应的指令,从人类文本或网络文档中提取[15]。

2. 对齐策略

在获取得到高质量的指令后,下一步就是选择合适的监督模型生成行为数据。具体的,根据监督模型与目标模型的能力比较,相关研究可分为强到弱的蒸馏(Strong-to-weak Distillation)和弱到强的对齐(Weak-to-strong Alignment)两类

  • 强到弱的蒸馏:即基于收集到的指令,通过模仿另一个更强大且已对齐的模型生成的响应或偏好数据来对齐较弱的目标模型。在响应指导的蒸馏中,目标模型通过直接学习不同指令的响应来模仿教师模型,从而学习到各种不同的能力[16-19];而偏好指导的蒸馏则专注于构建偏好数据,并通过各种对齐算法如DPO、IPO等来实现直接偏好优化,使其与教师模型在人类偏好方面保持一致[20-22]。

  • 弱到强的对齐:即探索使用较弱的模型来引导更强的模型进行对齐。随着AI系统的能力逐渐超越人类,对齐提供有效监督的难度也随之增加。因此,弱到强的对齐成为实现可扩展的自动对齐最有前途的方向之一,其使用较弱的模型来指导更强大模型进行对齐,一定程度上实现了可扩展的对齐。目前的研究主要包括使用较小但已对齐的模型直接生成对齐数据 [23],或者利用弱模型提出适合强模型对齐的优化方向 [24]。

尽管基于行为模仿的对齐已经存在大量的研究,但是目前还存在诸多的局限性,例如模型生成数据的质量问题、监督模型的产生偏见以及对弱到强对齐的理解不足等。同时,尽管强到弱的蒸馏已经有诸多成功案例,但是该范式往往被监督模型本身的能力所限制。相比之下,弱到强的对齐是更为理想的实现持续化的可扩展监督的手段,但是目前还处在一个初步阶段,亟待研究者们提供更深入的研究和更可靠的优化算法。

基于模型反馈的自动对齐

对于人类来说,通过他人提供的反馈是找到提升自我的有效路径,对于模型来说同样如此。在基于反馈的学习中,最直观的方法无疑是让人直接提供反馈信号,它能让大模型更懂得从人类角度出发进行回答,进而符合人类的价值观。然而,获取人类反馈的过程效率低且成本高,难以在真实场景中得到广泛的应用。因此,为了实现更自动的对齐,研究者们提出使用奖励模型来估计人类的偏好,从而给目标模型提供反馈,指导其对齐的优化方向。与稀缺的人类反馈不同,奖励模型能够在更广泛的分布上进行反馈预测,从而实现更高效的对齐。

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

这种基于自动生成反馈的对齐方法,提供了一条与人类价值观一致的有效路径。它不仅解决了传统方法中的诸多障碍,还为未来的自动对齐铺平了道路。在本文中,详细解析了如何利用模型生成的反馈来实现与人类价值的一致性。根据反馈的形式不同,基于模型反馈的自动对齐研究可以被分为以下三类:

1.数值奖励信号:数值奖励信号是通过奖励模型生成的,奖励模型将大语言模型的响应作为输入,输出用于估计人类偏好的标量信号。最典型的方法是RLHF[25],它使用人类反馈训练一个奖励模型,并采用强化学习算法对齐模型。为了实现更高效的自动对齐,研究者们尝试通过模型生成[26]或预训练[27]的方式,减少在训练奖励模型过程中对人类标注的依赖。此外,奖励模型生成的数值信号还可以用于优化LLMs在解码过程中的生成结果[28],或者在指令微调中筛选训练数据[29],从而进一步提升模型的表现。

2.二值验证信号:对于一些具有明确标准的客观任务,如数学任务,奖励模型通常会转化为二值信号的验证器。由于数学问题通常需要复杂的逐步推理过程,验证器可以分为结果验证器和过程验证器。结果验证器用于评估最终答案的正确性,而过程验证器则需要评估中间步骤的正确性。通过应用二值验证器,大模型可以在这些客观任务上实现自动对齐,广泛运用于模型训练[30]和解码过程[31-32]。

3.文本评论信号:文本信号相较于数值和二值信号包含更多语义信息,通过整合文本反馈,LLMs可以显著改进其输出,使其更加贴近人类的预期。这些优化后的输出还可以作为监督数据,用于进一步训练LLMs。文本批判的来源既可以是外部模型[33],也可以是模型自身[34]。

基于环境反馈的自动对齐

LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布

以上探讨的反馈信号来源或来自于基于模型自身内部表征设计的归纳偏置、或来自于其他大语言模型、以及奖励模型。事实上,还有很多反馈信号的来源可以存在于更为广泛的范畴上,这里将它们统一称作“环境反馈”。本文主要讨论了社会互动、人类集体智能、工具执行反馈和具身环境作为四种可能的外部环境,并回顾了从这些环境中自动提取反馈信号用以对齐模型的方法。这四种分类只是选择了四种有代表性的近期工作,并不穷尽所有可能的外部环境,它们之间也不构成概念上的非此即彼的关系。事实上,利用环境反馈自动对齐大模型仍然是一片有待开发的广阔领域。

1.社会互动:许多社会价值并不是以明文规定的方式存在的,而是潜移默化地人类日常的社会互动中体现。要想让大模型更好地对齐社会价值,从社会互动的环境中汲取这些隐式的反馈信息是一个重要的潜在方向。研究工作已经表明,大模型已经具备模拟社交场景中的人类行为的能力[35],这使得基于大模型设计多智能体系统模拟社会互动并从中提炼对齐信号成为可能。相关研究[36]提出设计模拟的社会互动框架,其中大模型智能体就某些社会议题进行交互并互相提供反馈,逐步修改输出并更新自身的记忆模块。在这个过程中,智能体模拟社会互动的数据将被收集并作为对齐信息的来源。智能体之间形成社会互动的网络结构,通过对观察到的其他智能体的行为进行打分、给出详细的反馈意见以及针对反馈意见进行修改,能够更好地将生成内容对齐到社会价值。

2.人类集体智能:与模拟社会互动环境并从中提取对齐反馈信号相对应地,另一系列的研究工作考虑的是如何通过自顶向下的规约来将人类的集体智慧注入模型的行为。这一系列的研究工作希望从公众环境中收集归纳模型应该遵守的行为准则,并希望这些准则能够全面地反映人类群体的普遍愿望,达成对于有争议话题的共识。集体宪章智能等项目[37-38]通过设计支持人类参与者交换意见、进行审议讨论的框架,收集公众意见并将其整合到大模型中,更好地实现模型的民主化对齐。

3.工具执行反馈:具备使用工具的能力是人类区别于其他生物的重要特征。在大模型时代,让大语言模型学习使用工具已经成为一个非常重要的研究方向,通过允许与外部工具进行动态交互,极大扩展了大语言模型的能力边界[39-40]。同时,一些工具在被调用过程中能够返回及时准确的执行结果,这些执行反馈信息能够用来对齐大模型。人类通常利用外部工具来交叉检查和完善他们的初始内容,例如使用搜索引擎进行事实核查,或使用代码解释器进行调试。模型同样能够利用工具执行反馈信息来更改它们的行为。

4.具身环境:具身智能(Embodied Intelligence)是指在特定的物理环境中感知信号并采取行动的能力,是实现通用人工智能的重要目标。近年来大语言模型取得的成功也为具身智能的研究带来了机遇,研究者们开始探讨将大语言模型引入具身环境[41],利用其作为系统的语言交互接口,并指导在具身环境中的推理、规划和决策任务。大语言模型能够掌握一些物理规则,可以作为先验知识提供给具身智能体;然而,这也面临一些挑战,大语言模型是在海量文本数据上进行训练的,缺乏在具身环境中解决问题所需的技能,同时它也无法直接干预外部环境并获得相关知识[42]。

实现自动对齐的潜在机制

除了系统性地介绍当前自动对齐的方法,本文还探讨了自动对齐得以实现的潜在机制,并从对齐的根本作用出发,探讨了为何以可扩展监督和weak-to-strong对齐等为代表的自动对齐技术得以实现的根本因素。具体的,本文致力于回答以下关于自动对齐机制的关键研究问题:

1.当前对齐的底层机制是什么?

对齐的底层机制是自动对齐研究的基础,这对于理解自动对齐的可行性、边界和优化方向至关重要。当前工作主要关注于对齐潜在机制的两个方面:模型行为范式转换和额外世界知识的注入。一些研究通过特征分析 ([43]、[44]等),知识干预([45]等),经验性实验([46]等)等手段发现当前对齐的主要作用是改变模型行为范式,而不是学习额外的世界知识。尽管这些分析工作得到了相似结论,但是他们并没有对所研究的模型做到了何种对齐进行说明。同时,有研究[47]发现领域特定的指令微调确实能够帮助模型在相应的榜单上提升性能, 因此对齐在不同场景和需求下的底层机制仍旧是个开放问题。

2.为什么自我反馈有效?

自我反馈被广泛应用于自动对齐的各种范式中。关于模型能否为自己的响应提供有效反馈以及其背后的机制还存在诸多争论。[48]等认为模型具备大量无法通过直接生成表达的知识,而这些知识能够提供反馈表达。[49]等认为提供反馈是模型指令遵循能力的副产物,所以在指令微调过程中,模型提供反馈的能力会随着指令遵循能力的提升而提升。然而,另一些研究[50]认为模型这种反馈能力是虚假的,他们可能依赖特定的数据并存在偏差。虽然在探索模型提供自我反馈的能力方面存在诸多研究,但关于其有效性边界仍有待探究。对于模型基于自我反馈进行修正的能力, 自我完善何时可以提高或削弱性能,以及产生这种影响的潜在原因,仍然缺乏全面的分析。

3.为什么弱到强是可行的?

作为实现可扩展监督的一个十分有前景的方向,有必要理解弱到强的可行性和底层机制,以优化和设计更有效的弱到强的对齐方法。目前,一个普遍的观点认为,在大型语料库上预训练的大语言模型具备了强大的泛化能力,因此能够在简易或有限的对齐监督信号下实现有效的泛化。当前研究展示了大语言模型从原则到行为的泛化能力、从易到难的泛化能力、从有噪声的监督到更高性能的泛化能力。[51]等还在理论框架下讨论了弱到强泛化的可行性。

结语

尽管自动对齐技术在近两年来获得了广泛关注和发展,相关的研究仍然存在诸多的局限和挑战,特别是在模型提供自反馈的可靠性,weak-to-strong对齐的可持续性,以及针对可扩展监督技术更有效的评估等等方面。解决这些未被充分探索的问题对于推进自动对齐至关重要,从而在现实场景中安全且有效地应用大语言模型。未来的研究工作预计将弥合这些差距,确保大语言模型可靠运行并与预期的人类价值观对齐。

文章来自于“夕小瑶科技说”,作者“中科院软件所&阿里千问”。

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...