CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

2024-09-21 阅读 33 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

CoT只对数学、符号推理才起作用，其他的任务几乎没什么卵用！这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手，分析了100+篇论文14类任务得出的结论。看来，CoT并非是所有大模型标配。

谷歌CoT开山之作，再次成为OpenAI o1模型的利器。

LLM复杂推理能力的实现，就离不开一步一步思考，但是这种「思考」究竟对于什么类型的任务有帮助呢？

来自UT-Austin、霍普金斯、普林斯顿的研究人员，使用CoT对100多篇论文，进行了定量元分析。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

论文地址：https://arxiv.org/abs/2409.12183

同时，他们还对14个模型的20个数据集，进行了评估。

结果显示，CoT在涉及数学、逻辑任务中，能够增强LLM性能，但在其他类型任务上，收益较小。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

在MMLU中，除非问题或模型回答中包含“=”（表示符号运算和推理），否则直接生成答案，而不使用CoT，能达到与使用CoT相同的准确率。

基于这一发现，作者通过分离「规划」和「执行」，并工具增强的LLM进行比较，来分析CoT在这些任务中的行为。

结果证实，CoT的大部分收益，来自于符号执行的改进，但相对于使用符号求解器来说，表现较差。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

总而言之，作者希望通过研究告诉我们，CoT并非是万能的。

「CoT可以有选择性地应用，以平衡性能和推理计算成本」。

另外，未来研究中还需超越基于提示的CoT，转向利用整个LLM中间计算的新范式。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

用CoT，还是不用CoT，这是一个问题

o1成为当红炸子鸡，一大原因便是采用了CoT架构。

但是，千万不要被OpenAI误导了。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

其实，先前就有研究称，CoT在数学以外的领域，并没有那么有用，甚至有时会损害模型性能。

最新研究中，作者的目标是去评估，基于提示的CoT在哪些领域发挥作用最大，以及具体的原因。

110篇论文，14大类别

对此，研究人员从机器学习顶会ICLR 2024、两个NLP顶会EACL 2024和NAACL 2024中，筛选了所有4642篇论文（2259篇来自ICLR 2024，2,382篇来自两个ACL附属会议）。

在这些论文中，通过自动筛选出现CoT、chain-of-thought或chain of thought两次的文章，共得到516个样本。

然后，下一步通过手动筛选，得到对「CoT提示与直接提示进行比较」的论文。

经过一系列排除，最终收集了110篇论文样本，涵盖了264个数据集。

最后，研究人员将所获得样本中的不同任务，分成14个类别。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

如下图2所示，在不文献中，作者发现CoT在任务分类中的性能增益。

可见，CoT在符号推理、数学、逻辑推理三大类别任务中，性能最优，平均提高分别为14.2%、12.3%和6.9%。

使用CoT的前三项任务，平均性能为56.9%，而没有CoT的性能为45.5%。

对于其他类别任务，使用CoT的平均性能为56.8%，而没有使用CoT的平均性能为56.1%。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

图2右侧显示了，在数学、符号或逻辑推理以外的任务实验中，平均CoT增量较高10个异常值。

虽然这些论文没有被归类为数学逻辑，但其中一些在某种程度上与逻辑、数学或符号推理相关。

从这个列表中可以看出，从CoT中获益最多的数据集是BIG-bench Hard。还有BIG-bench Temporal、MMLU-Moral Scenarios都涉及到了基本简单问题的组合。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

同时，还有几个异常值，也隐约遵循这一趋势。比如，ScienceQ是由一系列自然和社会科学科学选择题组成，但如果不按学科/问题类型细分成绩，很难解释其收益。

其次，在一些论文分析中，其他论文评分结果并未显示出CoT带来的改进。

实验结果

更进一步的，团队在零样本学习和少样本学习的设置下，对14个模型的20个数据集进行了一系列实验，以比较性能。

与CoT相比，零样本CoT有何改进？

如下图3所示，具体显示了图1中，每个推理类别的平均CoT性能改进。右侧呈现的是，对每个数据集使用CoT所带来的性能增益，这是所有模型和单个模型选择的平均值。

在非符号推理类别和数据集上，特别是那些包含主要涉及常识（CSOA、PIOA、SiOA）、语言理解（WinoGrande）和阅读理解（(AGILSAT、ARC-Easy、ARC-Challenge）问题的数据集。

零样本CoT和零样本直接回答的性能之间，几乎没有区别。

尽管这些数据集中涉及推理，但是CoT并没有带来显著的改进。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

相较之下，数学和符号类别，与符号和许多符号数据集一起得到了大幅改进。

MATH和GSM8k的增幅分别高达41.6%和66.9%。对于半符号数据集如Mvsteries等，结果显示出适度的增幅。

例如，从简单的自然语言(ContextHub)或更复杂的常识陈述(MuSR 谋杀之谜)解析出一阶逻辑。所有结果均显示在附录 C.1中，表7中还显示了 CoT 和直接答案提示的完整数字结果列表。我们还探索了少数镜头设置，发现它对 CoT 何时提供帮助的影响不大;参见附录 B。

答案形式，是否会影响到CoT帮助的范围？

答案——不多，预先规划或推理正确反应，可能会阻碍模型自主反应能力。

除了数学之外，许多常用的问题数据集是多项选择。

对于两个非多项选择，且包含不同级别的非符号推理来回答问题数据集，CoT具有与跨模型直接回答相似的性能。

其次，BiGGen Bench使用自由式回答作为问题答案，并使用LLM作为法官，以1-5级来评估这些回答。

得到的答案，本质上模糊了CoT和直接答案之间的界限。

为此，研究人员设置了一个新的CoT提示，要求语言模型生成自由形式响应的规划，然后要求其在生成完整的响应。

知识、软推理和常识方面，性能提升显著吗？

除了MMLU、StrategyQA和MuSR外，大多数情况下答案是否定的。

作者使用配对引导法在知识、软推理和常识推理类别的13个数据集上，测试了CoT改进的显著性。

结果得出，大约 38%的数据集显示出，这三个推理类别的效益是显著的。

MMLU和MMLU PRO

MMLU和MMLU Pro显示了，使用CoT带来收益，但由于这些数据集非常广泛，因此无法进行简单的表征。

研究人员探索了MMLU每个类别上的CoT性能，以了解这些领域之间CoT性能的差异。

对此，他们列出了3个类别，其中CoT在MMLU和MMLU Pro上，Llama 3.1 8B和70B最大的误差减少。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

其中，一些任务类别明显是数学性质，正如图8中所呈现的那样。

此外，我们还可以看到，CoT在商业任务上，能够提供一定的帮助。经过仔细核查，这些任务也会常常涉及数学等一些内容。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

实验结果如下图4所示，当问题或生成结果汇总包含“=”，以及不包含“=”时，使用CoT时的增益效果。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

CoT在公式推理中的优缺点

前面主要说明了CoT主要在符号推理任务发挥作用，但没有说明具体原因。

在符号任务上，研究人员CoT的性能提升归因于两个阶段：规划阶段和执行阶段。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

下图6显示了，代表性模型选择的结果。

将直接答案与Plan+ Direct求解器和Plan+CoT求解器进行比较时，可以注意到，对于许多数据集和模型，仅有规划并不能解决大部分性能增益。

与直接答案相比，需要CoT或Plan+CoT求解器，来获得强大的性能。

尽管CoT和Plan+CoT求解器，比直接答案和Plan+Direct求解器有优势，但在大多数设置中，仍以Plan+Tool求解器为主。

与符号求解器相比，LLM执行和追踪步骤的能力受到限制。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

鉴于以上的发现，研究团队认为CoT应该有选择性地应用，尤其是在需要处理数学、逻辑推理的任务。

而不分青红皂白地使用CoT，可能会导致推理成本增加。

他们还建议，若想进一步提升模型推理能力，还需要超越基于提示的CoT。

总而言之，CoT is not all you need。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

文章来自于“新智元”，作者“桃子”。

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

北大图灵班3位00后夺ICPC 2024全球冠军！清华第三，北交大第七，浙大第十

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

CoT只对数学、符号推理才起作用，其他的任务几乎没什么卵用！这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手，分析了100+篇论文14类任务得出的结论。看来，CoT并非是所有大模型标配。

用CoT，还是不用CoT，这是一个问题

110篇论文，14大类别

实验结果

与CoT相比，零样本CoT有何改进？

答案形式，是否会影响到CoT帮助的范围？

知识、软推理和常识方面，性能提升显著吗？

MMLU和MMLU PRO

CoT在公式推理中的优缺点

北大图灵班3位00后夺ICPC 2024全球冠军！清华第三，北交大第七，浙大第十

联手Anthropic，Cursor的开源竞对横空出世，以思维的速度编程，获千万美金投资

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

CoT只对数学、符号推理才起作用，其他的任务几乎没什么卵用！这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手，分析了100+篇论文14类任务得出的结论。看来，CoT并非是所有大模型标配。

用CoT，还是不用CoT，这是一个问题

110篇论文，14大类别

实验结果

与CoT相比，零样本CoT有何改进？

答案形式，是否会影响到CoT帮助的范围？

知识、软推理和常识方面，性能提升显著吗？

MMLU和MMLU PRO

CoT在公式推理中的优缺点

北大图灵班3位00后夺ICPC 2024全球冠军！清华第三，北交大第七，浙大第十

联手Anthropic，Cursor的开源竞对横空出世，以思维的速度编程，获千万美金投资

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿