在2023年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。
尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。我们认为,好的评测方法应当具备开放性、动态性、科学性和权威性。
为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。
最近,2024年3月版《SuperBench大模型综合能力评测报告》正式发布。
评测共包含了14个海内外具有代表性的模型。其中,对于闭源模型,选取API和网页两种调用模式中得分较高的一种进行评测。
根据评测结果,可以得出以下几个主要结论:
● 整体来说,GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4和文心一言4.0表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。
● 国外大模型中,GPT-4系列模型表现稳定,Claude-3也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身国际一流模型。
● 国内大模型中,GLM-4和文心一言4.0在本次评测中表现最好,为国内头部模型;通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。
大模型能力迁移&SuperBench
自大语言模型诞生之初,评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展,对其性能重点的研究也在不断迁移。根据我们的研究,大模型能力评测大概经历如下5个阶段:
2018年-2021年:语义评测阶段
早期的语言模型主要关注自然语言的理解任务(e.g. 分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、GPT、T5等。
2021年-2023年:代码评测阶段
随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。
2022年-2023年:对齐评测阶段
随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。
2023年-2024年:智能体评测阶段
基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。
2023年-future:安全评测阶段
随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来「AI可持续发展」的关键问题。
因此,为了全面地评估大模型的各项能力,SuperBench评测体系包含了语义、代码、对齐、智能体和安全等五个评测大类,28个子类。
中文推理:
● 数学计算:GPT-4系列模型包揽前两名,国内模型文心一言4.0、通义千问2.1分数超过Claude-3,但与GPT-4系列模型仍有一定差距。
● 逻辑推理:7分以上为第一梯队,由国内模型文心一言4.0领跑,同在第一梯队的还有GPT-4系列模型、Claude-3、GLM-4和Abab6。
中文语言:
● 基本任务:GLM-4拿下榜首,通义千问2.1、Claude-3和GPT-4网页版占据二到四位,国内其他大模型中文心一言4.0和KimiChat网页版也表现较好,超过了GPT-4 Turbo。
● 中文理解:国内模型整体表现较好,包揽了前四名,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分;国外模型中,表现尚可,排在第五位,但GPT-4系列模型表现较差,排在中下游,并且和第一名分差超过1分。
● 综合问答:各大模型均表现较好,超过8分的模型达到了6家,GPT-4网页版和KimiChat网页版拿下最高分,GLM-4和Claude-3分数相同,与榜首分数接近,并列第三。
● 文本写作:KimiChat网页版表现最好,同时也是唯一一个8分以上的模型,GPT-4 Turbo和分列二、三位。
● 角色扮演:国内模型Abab6、通义千问2.1和KimiChat网页版包揽前三名,且均在8分以上,超过GPT-4系列模型和Claude-3等国际一流模型。
● 专业能力:GPT-4 Turbo占据了首位,KimiChat网页版超过GPT-4网页版拿下第二名,国内其他模型中,GLM-4和通义千问2.1同样表现不俗,并列排名第四。
PART 4 智能体评测
AgentBench是一个评估语言模型在操作系统、游戏和网页等多种实际环境中作为智能体性能的综合基准测试工具包。
代码环境:该部分关注LLMs在协助人类与计计算机代码接口互动方面的潜在应用。LLMs以其出色的编码能力和推理能力,有望成为强大的智能代理,协助人们更有效地与计算机界面进行互动。为了评估LLMs在这方面的表现,我们引入了三个代表性的环境,这些环境侧重于编码和推理能力。这些环境提供了实际的任务和挑战,测试LLMs在处理各种计算机界面和代码相关任务时的能力。
游戏环境:游戏环境是AgentBench的一部分,旨在评估LLMs在游戏场景中的表现。在游戏中,通常需要智能体具备强大的策略设计、遵循指令和推理能力。与编码环境不同,游戏环境中的任务不要求对编码具备专业知识,但更需要对常识和世界知识的综合把握。这些任务挑战LLMs在常识推理和策略制定方面的能力。
网络环境:网络环境是人们与现实世界互动的主要界面,因此在复杂的网络环境中评估智能体的行为对其发展至关重要。在这里,我们使用两个现有的网络浏览数据集,对LLMs进行实际评估。这些环境旨在挑战LLMs在网络界面操作和信息检索方面的能力。
评测方法&流程
● 评测方式:模型和预先设定好的环境进行多轮交互以完成各个特定的任务,情景猜谜子类会使用GPT-3.5-Turbo对最终答案进行评分,其余子类的评分方式根据确定的规则对模型完成任务的情况进行打分。
● 评测流程:模型与模拟环境进行交互,之后对模型给出的结果采用规则评分或GPT-3.5-Turbo评分。
● 打分规则:由于不同子任务的分数分布不同,直接按平均分计算总分受极值的影响较为严重,因此需要对各子任务的分数进行归一化处理。如下表所示,各个子任务对应的「Weight(-1)」的值即是归一化的权重,这个值为在 Agentbench上最初测试的模型在该子任务上得分的平均值。计算总分时将各个子任务的分数除以Weight(-1)后求平均值即可。根据该计算方式,具有平均能力的模型最终得到的总分应为1。
SR:成功率
#Avg.Turn:解决单一问题所需的平均交互回合数
#Dev、#Test:开发集和测试集单个模型的预期总交互轮数
Weight⁻¹:各单项分在计算总分的时候的权重的倒数
整体表现:
在作为智能体能力评测中,国内模型整体明显落后于国际一流模型。其中,Claude-3和GPT-4系列模型占据了前三甲,GLM-4在国内模型中表现最好,但与榜首的Claude-3仍有较大差距。
国内外大模型在本能力下均表现欠佳,主要原因是智能体对模型要求远高于其他任务,现有的绝大部分模型还不具有很强的智能体能力。
分类表现:
除网上购物被国内模型GLM-4拿到头名外,其他分类下,榜首均被Claude-3和GPT-4系列模型占据,体现出相对强大的作为智能体能力,国内模型仍需不断提升。
● 具身智能(Alfworld)前三甲均被Claude-3和GPT-4系列模型包揽,和国内模型差距最大。
● 在数据库(DB)和知识图谱(KG)两个维度下,国内模型GLM-4均进入top3,但是与前两名仍有一定差距。
PART 5 安全评测
SafetyBench是首个全面的通过单选题的方式评估大型语言模型安全性的测试基准。包含攻击冒犯、偏见歧视、身体健康、心理健康、违法活动、伦理道德、隐私财产等。
评测方法&流程
● 评测方式:每个维度收集上千个多项选择题,通过模型的选择测试对各个安全维度的理解和掌握能力进行考察。评测时采用few-shot生成方式,从生成结果中抽取答案与真实答案比较,模型各维度得分为回答正确的题目所占百分比,最终总分取各个维度得分的平均值。针对拒答现象,将分别计算拒答分数和非拒答分数,前者将拒答题目视为回答错误,后者将拒答题目排除出题库。
● 评测流程:从模型针对指定问题few-shot的生成结果中提取答案,与真实答案比较。
整体表现:
在安全能力评测中,国内模型文心一言4.0表现亮眼,力压国际一流模型GPT-4系列模型和Claude-3拿下最高分(89.1分),在国内其他模型中,GLM-4和Claude-3同分,并列第四。
分类表现:
在违法活动、身体健康、攻击冒犯、心理健康、隐私财产这五个分类下,各模型各有胜负,但是在伦理道德和偏见歧视上,各个模型分差较大,并保持了和总分较为一致的偏序关系。
● 伦理道德:文心一言4.0力压Claude-3位列第一,国内大模型GLM-4同样表现亮眼,超过GPT-4 Turbo位列前三甲。
● 偏见歧视:文心一言4.0继续排名榜首,领先GPT-4系列模型,GLM-4紧随其后,同为第一梯队模型。
参考资料:
https://mp.weixin.qq.com/s/r_aAjFHTRDBGXhl3bd06XQ
https://mp.weixin.qq.com/s/VhVEnRrIzJza1SZC9bKa6Q
文章来自微信公众号“新智元”,作者:新智元编辑部、
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则