大模型长文本阅读能力如何评估？

2024-08-14 阅读 34 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

1 LongBench测评

LongBench是首个双语（中文和英文）、多任务、综合评估大型语言模型长上下文理解能力的基准测试，以更全面地评估大型模型在长上下文上的多语言能力。LongBench由六大类二十一个不同任务组成（包括 14 个英文任务、5 个中文任务和 2 个代码任务，大多数任务的平均长度在 5k 到 15k 之间，总共 4,750 个测试数据），涵盖单文档QA、多文档QA、摘要、小样本学习、合成任务和代码补全等关键长文本应用场景。样例如下：

{
    "input": "The input/command for the task, usually short, such as questions in QA, queries in Few-shot tasks, etc",
    "context": "The long context required for the task, such as documents, cross-file code, few-shot examples in Few-shot tasks",
    "answers": "A List of all true answers",
    "length": "Total length of the first three items (counted in characters for Chinese and words for English)",
    "dataset": "The name of the dataset to which this piece of data belongs",
    "language": "The language of this piece of data",
    "all_classes": "All categories in classification tasks, null for non-classification tasks",
    "_id": "Random id for each piece of data"
}

地址：[https://huggingface.co/datasets/THUDM/LongBench](https://huggingface.co/datasets/THUDM/LongBench)

2 Retrieval Tasks

此类方法最经典的一种测评方法叫做大海捞针（Needle test）实验，核心思想为将需要召回的重要信息置于不同长度的噪音文本的不同位置中（文本的开头、中间或结尾），而模型则被要求找到那段插入的重要信息。然后观察模型是否能够准确地从文本中提取出这个隐藏的句子，主要评测了模型从长文本中定位与召回关键信息的能力。

大模型长文本阅读能力如何评估？

大海捞针实验

Needle test通过控制噪音文本的长度与信息插入的位置，来测试模型对不同context length的性能，与验证是否存在lost in the middle的现象。

大模型长文本阅读能力如何评估？

横轴代表context length，纵轴表示插入深度

许多Long context benchmark中的检索任务均给予此设计，区别仅有插入信息复杂度的区别。

但在许多现实任务中，模型并不是从一堆无关噪音里寻找关键信息；相反，真实输入中常常包含许多正确答案的干扰项。根据这一思想，出现了改进版的加入干扰项的Needle test。

大模型长文本阅读能力如何评估？

干扰选项

总结

目前大模型上下文的阅读理解能力提升迅速，各大厂也都在积极整理数据集，类似LongBench的长文本测评数据集还有InfiniteBench、RULER等。
第二类思路就是大海捞针，在没有标准验证集的情况下可以自己造数据集，因为可以自己找不相关文本并根据自己插入的文本生成相应问题。

文章来自于微信公众号 AI有温度作者AI有温度

ChatGPT最感谢谁？50位影响世界的AI科学家

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3665 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

大模型长文本阅读能力如何评估？

1 LongBench测评

2 Retrieval Tasks

总结

ChatGPT最感谢谁？50位影响世界的AI科学家

Midjourney 也得”站着敬酒，AI 图片生成新王 Flux 怎么这么强？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3665 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

大模型长文本阅读能力如何评估？

1 LongBench测评

2 Retrieval Tasks

总结

ChatGPT最感谢谁？50位影响世界的AI科学家

Midjourney 也得”站着敬酒，AI 图片生成新王 Flux 怎么这么强？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿