谁在评价大模型？AI大模型评测榜单乱象调查

2023-09-24 阅读 50 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

为什么不同榜单会有不同结果？

华泰证券前资深算法工程师邱震宇近期加入了新公司南京图灵人工智能研究院，负责大模型研究应用。今年以来，他深入探究了市面上大模型的各类评测集，综合比较了各家榜单结果。他告诉记者，现在并不存在一个公认有效的评测方式。

为什么同一个模型在不同评测中的得分差异很大？评测集的侧重点不同是最重要的原因。

C-Eval——一家由上交、清华和爱丁堡大学研究员推出的当红开源评测榜单，因每周都有全新的模型进入榜单，新晋大模型经常排在GPT4之前而被抬上风口浪尖。

“现在大模型对评测集的选择非常敏感，这种状态不太合理，也不太客观。”邱震宇认为，比如在C-Eval榜单上，即使某个大模型超过了GPT4，也不代表它在中文语言上的能力就比GPT4强，只能说在做题应试上更厉害。

谁在评价大模型？AI大模型评测榜单乱象调查

近期参与了很多评测工作的复旦大学计算机系教授张奇将C-Eval的问题归因为“评测从单点维度进行”，这是指每个流行学术评测集都有自己的侧重点。比如Meta最常选用的GSM8K和MMLU，是不同水平的考试集——前者是小学数学，后者则是更高级的多学科问答。

就像一个班的学生参加不同学科的考试，大模型们在不同榜单上自然排名不同。

主观题在大模型评测中比例上升也是导致评测结果差异的另一个原因。在现行海内外大模型评测榜单中，主观题与客观题结合的思路普遍被业内认可。

但主观题的挑战在于，每个人心中的评价标准是否一致。以及“人类团队评分”必然会触及题目数量的天花板，而对于大模型评测而言，题量越大得出的结论则越有效。

因此，业内也开始采用“人类+GPT4评分”的模式。国内如SuperCLUE会选择将GPT4视作“评卷老师”，让其加入人类团队辅助评分。

这一做法的背后存在着合理性支撑。3月，微软研究院发布文章称，类似GPT-4的强大LLM判别器可以很好地匹配人类偏好，达到超过80%的一致性，这是人与人之间的同级别的一致性。

此外，专用模型与通用大模型之间在垂直领域的同台竞技，是导致排名失真的另一原因。在实际落地场景中，制造业、医疗、金融等行业内企业客户在接入大模型能力时都需要根据自身数据库做二次微调。这也意味着，原版通用大模型直接参与垂直领域问答所得出的结果，并不能够代表大模型产品在垂直领域的真实表现。

榜单可以刷吗？

许多新晋大模型开始在类似C-Eval的榜单上排名超越GPT-4，揭示出开源评测集所引发的“作弊”现象。

根据界面新闻的了解，C-Eval目前只公开了题目但没有公开答案，参与测试的大模型厂商一般会采取有两种方式“刷榜”：第一种是找数据标注员把题目做一遍，第二种是用GPT-4把题做一遍，再把答案扣下来训练大模型，这样都能在相应学科测试中获得满分。

将评测题库“开源”的榜单将不得不面对大模型厂商“刷题”的做法，在某种程度上，是无法全面反映大模型真实能力的；而将评测题库进行“闭源”，虽然可以避免针对性刷题，但是对评测机构自身的权威性提出了更高的要求。

某清华系大模型初创公司技术相关负责人认为，倘若评测机构被认可是权威的，那闭源评测集更能反映相应语境下大模型的真实能力。

但闭源评测集也需要技巧才能规避“刷榜”。记者了解到，如果闭源评测集不进行更新换题，参与评测的模型可以从后台拉出历史记录进行“作弊”，重做被测试过的问题，这等同于“虚假闭源”。

来自智源研究院大模型评测组的李薇认为，刷榜现象从小模型时代就有，丰富多样的评测任务有助于全面了解模型，但“过多的榜单确实会增加研究人员和公众的理解负担，因此更亟需建立有公信力的榜单。”

随着各种各样的榜单越来越多，甚至有人质疑有些榜单可以直接花钱买排名，这让大模型评测榜的公信力进一步受损。不过，“花钱买榜”目前并无实锤，更多存在于竞品间的互相猜测中。

更好的评测需要什么？

“评测集应该是封闭的，避免被作弊，但一个好的大模型评测应该是过程公开的评测，方便大家对评测做监督。” 前述清华系大模型公司技术负责人表示。

不过，目前国内绝大部分评测不能做到“过程公开”，只有两家除外，一是上海人工智能实验室的OpenCompass，其将完整的评测流程都通过代码开源出来，包括所用的数据集；二是智源研究院的FlagEval，没有开源评测代码，但也公开了所用的数据集。

智源大模型评测组研究员李薇告诉记者，将大模型评测过程公开是很好的愿景，但考虑到评测的公平公正性，还是应有大量的封闭评测集，“闭卷考试”才能真正的评价出模型的能力。智源自有FlagEval平台就要求把待测模型部署在平台自有的服务器后再进行评测，从根源上避免了作弊和评测数据的流出。

几乎所有业界受访者都对界面新闻表示，未来更看好OpenCompass和FlagEval这样具有一定学术背景的评测机构模式，原因之一是OpenCompass和FlagEval自带算力资源，可以支持每次大模型评测；其二是OpenCompass是少见的大型综合性榜单，纳入了全球业界50余个评测集，提供了30万道题目，FlagEval也包含了8万+道题目，还把对模型潜力的指导纳入体系中。

谁在评价大模型？AI大模型评测榜单乱象调查

图源：OpenCompass官网。在OpenCompass的榜单上，GPT-4在中文数据集评测中排名第一。

谁在评价大模型？AI大模型评测榜单乱象调查

图源：智源研究院。FlagEval也打造了覆盖能力、任务、指标的三维评价体系，构建600余项全面能力评测。

但FlagEval和OpenCompass的模式也只是一种初探，关于如何作出真正综合全面的大模型评测，学界和产业界最前沿也呈“一头雾水”。

参考谷歌、微软、斯坦福大学、牛津大学、OpenAl等机构的研究，他们暂时将大模型评测技术按评测维度分为：模型性能、模型泛化能力、模型鲁棒性和安全性、模型能效等。

但界面新闻记者了解到，目前各大学术类榜单的评测基本围绕模型性能和泛化做文章，他们会在评测中将这些维度转化为大模型的“准确性”指标，比如知识理解、知识推理、阅读理解、知识问答、代码生成等细分类目，再通过学术考试的方式评估，但鲁棒性、安全性、效率等等影响大模型落地的维度很少能在榜单上真正体现。

邱震宇观察到，安全评测目前很难设计出可量化的方案，而“有能力做这块评测的人，除了要懂大模型，也要懂社会工程学和心理学。”

“仅仅使用学术评测集是不够的，无法全面反映用户的实际需求和实际体验，需要对学术评测集进行一定程度的改造，使其更贴近用户真实的使用场景。”深度参与了FlagEval评测工作的李薇补充称，大模型评测还一定程度上应将用户体验纳入考察范围。

在更为有效、更被认可的评测方式问世之前，大模型评测榜“各说各话”将会持续很长时间，厂商也势必会主动或被动地参与到各类榜单中来。

不过，归根结底，榜单只是工具，市场才是目的——谁能提供更贴近用户需求的产品，满足更多企业和个人的需要，谁才是“最优秀”的大模型。

文章转载自”界面新闻“，作者李京亚、于浩

需要性健康帮助吗？试试这个AI性健康教练。

关联网址

关联标签

#AI #GPT3.5 #大模型 #文心一言

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

303 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

268 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

244 用户在看

谁在评价大模型？AI大模型评测榜单乱象调查

为什么不同榜单会有不同结果？

榜单可以刷吗？

更好的评测需要什么？

需要性健康帮助吗？试试这个AI性健康教练。

IsLandAI与EXGPT联合加拿大多伦多大学共建实验室：开创AI技术的崭新时代

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

303 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

268 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

244 用户在看

谁在评价大模型？AI大模型评测榜单乱象调查

为什么不同榜单会有不同结果？

榜单可以刷吗？

更好的评测需要什么？

需要性健康帮助吗？试试这个AI性健康教练。

IsLandAI与EXGPT联合加拿大多伦多大学共建实验室：开创AI技术的崭新时代

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿