LLM推理性能受输出格式影响，JSON最严重

2024-08-16 阅读 30 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

格式限制会降低LLMs推理能力

上述研究已发表在arXiv上，论文主要揭示了，在格式限制下，LLMs的推理能力显著下降，尤其是在JSON模式下。

LLM推理性能受输出格式影响，JSON最严重

一直以来，将LLMs纳入工业应用程序的一个主要障碍是它们缺乏对标准化输出格式的遵守。

一种常见解决方法是结构化生成，即通过格式限制让LLMs以JSON或XML等标准化格式提供输出。

不过话说回来，虽然有多种方式可以实现这种限制，但后续影响却无人研究。（限制是否影响模型性能呢?）

说干就干，研究人员采用3种常见方法来评估不同格式限制对下游性能的影响：

JSON-mode：通过预定义的标记空间限制LLMs的输出
FRI：指导LLMs生成符合特定模式的标准化格式响应
NL-to-Format：两步过程，首先用自然语言回答问题，然后转换为目标格式

对了，还要加上自然语言（NL），它是最不受限的格式，允许模型以自然语言自由地回答问题。

评估对象是GSM8K（包含自然语言环境中的数学问题）和Last Letter Concatenation（最后一个字母连接任务）这两个需要精确匹配答案的数据集，以及Shuffled Objects（洗牌对象追踪任务）。

LLM推理性能受输出格式影响，JSON最严重

他们发现，在这些涉及推理的任务中，更宽松的提示通常会得到更好的结果。

同时，JSON模式在大多数情况下表现最差，其次是格式限制指令（FRI），然后是自然语言到格式（NL to Format）转换，以及自然语言（NL）提示。

研究还发现，不同的LLMs对不同的数据格式表现出不同的偏好。

例如，GPT更喜欢YAML格式，Claude更喜欢XML格式，而Gemini/Gemma则更倾向于JSON格式。

不过，在分类任务中，格式限制可能提高了准确性，因为它减少了可能的答案选择，从而降低了错误率。

LLM推理性能受输出格式影响，JSON最严重

他们进一步总结了格式限制会降低模型推理能力的原因，主要包括：

限制了模型生成必要中间推理步骤的能力。
强制的格式要求可能与模型自然生成答案的方式不兼容。
格式错误可能导致即使推理正确，答案也因为格式问题而被判定为错误。

好消息：能治

针对这一问题，他们提出了几种应对之策：

首先，前面提到了JSON模式在大多数情况下表现最差，最后才是自然语言到格式（NL to Format）转换。

那么反过来说，解决格式限制的最佳方案就成了NL to Format，即LLMs首先用自然语言回答问题，然后再将答案转换为目标格式。这种方式允许推理与格式遵守分离，从而表现更佳。

LLM推理性能受输出格式影响，JSON最严重

此外，结构化输出中的键顺序对LLMs的回答方式有重要影响。

例如在使用GPT-3.5 Turbo时，100%的JSON-mode响应错误地将“answer” 键位于 “reasoning” 之前，这导致模型直接给出答案，而不是展示思考过程。

研究还表明，格式限制导致的解析错误不是性能差异的主要原因。

例如，在LLaMA 3 8B模型中，Last Letter任务的JSON格式解析错误率仅为0.15%，但与自然语言响应相比，性能差距达到了38.15%。

LLM推理性能受输出格式影响，JSON最严重

而且可以通过纠正提示来减轻这些错误，例如对于Claude-3-Haiku模型，在Last Letter任务中，通过纠正步骤，JSON和YAML格式的准确率分别提高了+2.8%和+44.8%。

LLM推理性能受输出格式影响，JSON最严重

以上也意味着，在应用LLMs时，需要在易于解析的格式和保留固有推理能力之间找到平衡点。

最后，研究人员在论文中提醒了：

相比于正则表达式，LLMs作为答案解析器能够提供更加深入和准确的文本理解，不仅仅局限于表面的模式匹配，而是能够真正理解答案的含义和上下文。

文章来源于“量子位”，作者“一水”

LLM推理性能受输出格式影响，JSON最严重

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3665 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

LLM推理性能受输出格式影响，JSON最严重

格式限制会降低LLMs推理能力

好消息：能治

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

“在线版FLUX”已支持ControlNet，无需部署开箱即用，还能在线训练LoRA模块

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3665 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

LLM推理性能受输出格式影响，JSON最严重

格式限制会降低LLMs推理能力

好消息：能治

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

“在线版FLUX”已支持ControlNet，无需部署开箱即用，还能在线训练LoRA模块

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿