如何评估模型在特定垂直领域的“业务能力”?
作者:罗弘一
编辑:Chloe
编者按:
市面上现在不缺大模型,很多企业也有落地AI的战略规划,但对如何评估模型在特定垂直领域的“业务能力”往往很迷茫(而且市面上的评测都是针对基础能力,泛测评不能指导垂直场景),选择和试错成本偏高。
因此,我们从近几个月服务的保险行业切入,参照SuperCLUE(中文通用大模型综合性测评基准)框架专门定制了1000道题目集,一一测试了ChatGPT4、 智谱chatGLM-4、BAIchuan2-Turbo、百度ERNIE-Bot 4.0、Yi-34B-chat、llama 2等模型在保险业务上的表现。
注:考虑到保险公司对客户数据的安全和合规性的高度重视,大模型基底能够采用私有云/本地部署是第一需求,为确保所有数据处理都在可控范围内进行,本报告所选国产大模型皆提供私有云/本地化部署。
题库该怎么设计?
作为考官,我们参考superclue基准题库的设计框架,结合对AI和保险场景的理解,抽象出了以下题目维度和视角,其中,保险合同条款解析类题目权重最高,满分100分制。
1.保险合同条款解析: 这一部分的目标是检验AI模型是否有能力结合具体的合同条款和现实情境,给出正确且合理的判断。——我们希望模型不仅理解合同的文字,还能把这些规定应用到实际问题中(比如在客服场景下跟进客户),给出恰当的推理结果。
2.“有效沟通”能力: 重点关注AI模型能否准确理解人类对话中常出现的口语化表达、上下文代词指代等,以及能否以富有同理心的方式回应,表现出“高情商”的交流能力。模型的目标是在保持对话流畅性的同时,也能展现出理解和关怀,提供贴心的沟通体验。
3.客户意图洞察: 此项评估的是AI模型是否能通过对话内容分析出客户的个性化需求、偏好以及挖掘潜在的商业机会。我们期望模型能从交流中识别关键信息,构建出客户画像,并主动发现可能的商机或提供个性化的服务建议。
4.工具函数调用: 评估模型在处理数据时对关键信息的提取能力和调用相应工具函数完成特定任务的能力,以测试其在复杂业务处理中的应用效率,可以理解为一个客服能不能找到合适的同事为客户解决问题。
5.结构化输出能力: 我们还重点考察模型的工程化能力,即通过观察AI模型是否能够按照预设的JSON schema稳定输出推理结果,从而评估其在实际工程部署中的可控性和安全性。这一环节对于保证模型在真实业务环境中的稳定运行和数据处理的安全性至关重要。
测试过程
在测试过程中,我们对模型进行了一次小型的工程化应用——用一套融入了prompt提示词的自动化脚本组织和执行了这场模型考试,其中各大模型负责答题,Chatgpt 4充当考试判官,最后返回成绩报告。整个过程有以下关键:
编写脚本为多个模型基底进行考试
为了执行这场大规模的AI能力“考试”,我们编写了专门的自动化脚本。首先,它保证了每个AI模型都在相同的“考试环境”中接受挑战,从而确保了评估的公平性;其次,通过自动化执行测试,这种方法极大地提高了整个评估过程的效率。
设计prompt以格式化输出答案
为了精确评估AI模型的实际应用能力,我们首先设计了一套标准化的prompt格式来规定模型的动作。这些prompt旨在引导AI以一种易于工程化处理的格式返回答案,确保结果可以直接应用于实际业务场景中。同时,避免使用“仅提供答案”这类prompt缺乏中间推理过程,从而影响作答的准确性。
测试的过程本身就是对AI模型的一次小型工程化应用,在这个过程中我们不仅评估出了理论上的性能,更深入了解它们在实际工程化部署中的应用潜力。
测试成绩展示
gpt-4-turbo-preview:
86分,首先我们测试了当前的行业标杆作为对照,如果企业不“必须使用国产模型”、“仅可使用私有云/本地化部署以保证数据安全”、或预算很紧张的情况下,使用直接使用openAI的接口是一个极高性价比的选择(虽然有政策风险)。
智谱ChatGLM4
(https://open.bigmodel.cn/dev/api#glm-4):64分,优势在于自然语言理解,适合应用在不需要做复杂的查询任务的客服对话场景中;格式化输出能力稍有欠缺,在应用过程需要为“能够稳定的格式化输出内容”付出额外50%的prompt调优成本;建议在重自然语言沟通,轻工程嵌入的场景下可以选择,如针对单一险种的售前AI客服。
Baichuan2-Turbo
(https://platform.baichuan-ai.com/docs/api):72分,得益于其192k的超长上下文窗口,突出在处理大量数据和执行复杂查询任务方面的能力,使其特别适合于那些需要深度数据分析和提取的应用场景,如复杂保险案件审查或核保。它的自然语言处理能力也相当不错,能够理解并回应复杂的用户查询。然而,当面对需要高度个性化和情感化回答的客服对话时,可能需要更多的调优来达到最佳表现。此外,Baichuan2-Turbo的格式化输出能力较为强大,减少了在将AI集成到实际应用中所需的额外工作,但在某些特定情境下,可能仍需细微调整以完全符合特定业务需求。
百度ERNIE-Bot 4.0
(https://cloud.baidu.com/doc/WENXINWORKSHOP/s/6lp69is2a):73分,理解复杂的语言结构和行业信息方面表现卓越,尤其是在处理需要具备大量行业知识的场景下,如需要客情维护的售后AI客服。尽管如此,在选择ERNIE-Bot 4.0做agent时可能需要进行额外的工程量来弥补其在工具函数选择阶段正确率偏低的问题。格式化输出方面,ERNIE-Bot 4.0的表现与Baichuan2-Turbo旗鼓相当。
Yi-34B-chat
(https://huggingface.co/01-ai/Yi-34B-Chat):70分,在行业知识、常识推理和逻辑推理上表现良好,总结能力、多跳推理能力略有欠缺,在工程化时需要注意将过程量拆分到足够细致;格式化输出能力稍有欠缺,这将使prompt调优的工程量膨胀30%-40%。另外需要注意的一点是,当上下文信息不足时,YI-34B-chat倾向于给出更激进的选择。
Llama2-70B
(https://huggingface.co/meta-llama/Llama-2-70b-chat-hf):19分,诚然Llama是开源大语言模型的“先驱”,但是看起来他们更专注于模型层的推理能力,没有做格式化输出相关的优化,在模型本地部署的情况下选择基于llama2训练出的Yi系列开源模型即可。
以上就是本次模型测评背后大部分内容了,对题目设计感兴趣和想要了解大模型选型的人来说,欢迎来交流。
文章来自于微信公众号“Zion AI实验室”(ID:gh_bf45bbc4d5d3),作者 “罗弘一”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则