「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

2024-04-11 阅读 48 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

LLM-enhanced RL 框架

LLM-enhanced RL 定义：指利用已预训练、内含知识（knowledge-inherent）的AI模型的多模态（multi-modal）信息处理、生成、推理等能力来辅助RL范式的各种方法。

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

主要特性（Characteristics）：

1. 多模态信息理解（multi-modal information understanding）

2. 多任务学习和泛化（multi-task learning and generalization）

3. 样本利用率的提高（improved sample efficiency）

4. 长期轨迹规划能力（long-horizon handling）

5. 奖励信号生成能力（reward signal generation）

LLM的主要角色分类

1. 信息处理者（information processor）：包括1）文字和视觉表征提取；2）复杂自然语言翻译。

2. 奖励设计者（reward designer）：即隐式奖励模型与显式奖励模型（奖励函数代码生成）。

3. 决策者（decision-maker）：包含直接决策与间接辅助决策两种。

4. 生成者（generator）：即1）世界模型中的轨迹生成和2）强化学习中的策略（行为）解释生成。

LLM 作为信息处理者（LLM as Information Processor）

在富含文字和视觉信息的环境中，深度强化学习（deep RL）通常需要同时学习多模态的信息处理和决策控制策略，因此学习效率大幅下降。且不规范、多变的自然语言和视觉信息往往会对代理学习产生大量干扰。

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

LLM在此情况下可以（1）有效表征提取，加速下游神经网络学习；（2）自然语言翻译，将不规范、冗余复杂的自然语言指令和环境信息翻译为规范的任务语言，帮助代理过滤无效信息。

LLM 作为奖励设计者（LLM as Reward Designer）

奖励函数设计和有效奖励信号生成一直是强化学习在复杂任务或者稀疏奖励环境下的两大难题。

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

大模型可以通过以下两种方式缓解该问题

1. 隐式奖励函数设计：利用上下文理解能力、推理能力和知识，通过任务prompt或文字-视觉对齐的方式生成奖励

2. 显式奖励函数设计：通过输入环境规范信息，LLM生成可执行奖励函数代码（例如 Python 等），显式地逻辑计算奖励函数的各个部分，且可以根据评估自主修正。

LLM 作为决策者（LLM as Decision-Maker）

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

在决策问题中，大模型可以作为：

1. 直接决策者：Decision Transformer在离线强化学习中展现了巨大的潜力，大语言模型可视作增强版的大型预训练Transformer模型，利用本身强大的时序建模能力和自然语言理解能力解决离线强化学

习的长期决策问题。

2. 间接决策者：作为一个指导者，结合预训练专家知识和任务理解能力，生成动作候选（action candidates），缩小动作选择范围；或者生成参考策略（reference policy）指导RL策略更新。

LLM 作为生成者（LLM as Generator）

在基于模型的强化学习（model-based RL）中，LLM可以作为多模态世界模型（world model），结合自身知识和建模能力来生成高质量长期轨迹或者学习世界状态转移表征。

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

在可解释强化学习中，大模型可以通过理解轨迹、环境与任务，根据prompt自动生成代理的自然语言行为解释，增加用户在调用、调优RL模型时的理解。

讨论（Discussion）

LLM-enhanced RL的未来潜在应用包括但不限于：

1. 机器人：利用多模态理解能力和推理能力，LLM-enhanced RL可以提升人-机器的交互效率；帮助机器人理解人类需求逻辑；提高任务决策和规划能力。

2. 自动驾驶：自动驾驶使用强化学习做复杂动态场景下的决策问题，涉及多传感器数据与道路规范、行人举止等。大模型可以帮助强化学习处理多模态信息以及设计综合奖励函数，例如安全、效率、乘客舒适度等

3. 电力系统能量管理：在能量系统中，运营者或者用户使用强化学习来高效管理多种能力的使用、转换和存储等，其中涉及高不确定性的可再生能源。大模型可以帮助设计多目标函数与提高样本利用效率。

LLM-enhanced方向的潜在机会：

1. 在强化学习方面：目前的工作都集中在通用强化学习，而针对特定强化学习分支的工作较少，包括多代理强化学习、安全强化学习、迁移强化学习和可解释强化学习等。

2. 在大模型方面：目前的工作大部分仅仅是使用prompt技术，而检索增强生成（RAG）技术和API、工具调用能力可以显著提高LLM在特定情况下的表现。

LLM-enhanced RL 的挑战：

1. 对大模型的能力依赖：大模型的能力决定了强化学习代理学习到的策略，大模型固有的偏见、幻觉等问题也会影响代理的能力。

2. 交互效率：目前大模型的计算开销较大、交互效率慢，在在线强化学习中会影响代理与环境的交互速度。

3. 道德、伦理问题：实际人-机器的应用中，大模型的道德、伦理等问题需要被认真考虑。

总结

该综述文章系统总结了大模型在辅助强化学习方面的最近研究进展，定义了LLM-enhanced RL这样一类方法，并总结了大模型在其中的四种主要角色及其方法，最后讨论了未来的潜在应用、机会与挑战，希望能给未来该方向的研究者一定启发。

1. 信息处理者：大模型为强化学习代理提取观测表征和规范语言，提高样本利用效率。

2. 奖励设计者：在复杂或无法量化的任务中，大模型利用知识和推理能力设计复杂奖励函数和生成奖励信号。

3. 决策者：大模型直接生成动作或间接生成动作建议，提高强化学习探索效率。

4. 生成者：大模型被用于：（1）作为高保真多模态世界模型减少现实世界学习成本及（2）生成代理行为的自然语言解释。

参考资料：

https://arxiv.org/abs/2404.00282

文章了，来自微信公众号“新智元”，作者：LRS

斯坦福、伯克利大神教授创业给机器人造大脑，OpenAI红杉抢着投5亿

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3739 用户在看

AI写作网站自动的生成文章可以用吗？

304 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

269 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

249 用户在看

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

LLM-enhanced RL 框架

LLM的主要角色分类

LLM 作为信息处理者（LLM as Information Processor）

LLM 作为奖励设计者（LLM as Reward Designer）

LLM 作为决策者（LLM as Decision-Maker）

LLM 作为生成者（LLM as Generator）

讨论（Discussion）

总结

斯坦福、伯克利大神教授创业给机器人造大脑，OpenAI红杉抢着投5亿

史上首次，AI超越人类奥赛金牌得主！吴方法加持，30题做出27道破纪录

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3739 用户在看

AI写作网站自动的生成文章可以用吗？

304 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

269 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

249 用户在看

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

LLM-enhanced RL 框架

LLM的主要角色分类

LLM 作为信息处理者（LLM as Information Processor）

LLM 作为奖励设计者（LLM as Reward Designer）

LLM 作为决策者（LLM as Decision-Maker）

LLM 作为生成者（LLM as Generator）

讨论（Discussion）

总结

斯坦福、伯克利大神教授创业给机器人造大脑，OpenAI红杉抢着投5亿

史上首次，AI超越人类奥赛金牌得主！吴方法加持，30题做出27道破纪录

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿