一年过去了，国产大模型怎样了？

2024-01-05 阅读 48 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

源起

ChatGPT-3.5 发布于 2023 年 3 月 1 日，短短一年内，AI 已经变成几乎所有科技公司都关注的话题，并且涌现了不少大模型。

我在过去曾经做过很多轮基础的评测，说是评测，更多还是试用，比如：字节的豆包，与文心一言、通义千问、ChatGPT 在 9 个问题上的对比。

如今已经是 2024 年，我很好奇如今国产的大模型进展如何了，翻遍了中文互联网，往往都是 PR 稿，很少有系统性的评价。

要说评测，自然也有一些，比如 SuperCLUE、C-Eval，还有海外更有公信力的 MMLU，以及 FlagEval、OpenCompass 等等。包括真格基金的 Z-bench 也是很有意思的评测集。

然而这些评测集都有共性的问题，主要两点：

第一，检验的标准更像“应试题”，比如参考的都是各种数学、物理的考试题目，而逻辑题很像公务员考试题。

有的评测集喜欢用“父母结婚为什么没邀请我”来测试大模型的“聪明”程度，包括我之前也喜欢问这样脑筋急转弯的题。可各位细想，这种问题连普通人都得反应一会儿的，对 AI 来说哪怕一时没想明白，又有什么问题？

这些评测自然有其意义，不过都不存在真正的“应用题”。就像学校里的计算机学科学的东西，跟互联网公司里写代码所需要的东西，压根就不是一回事儿。

所以我很好奇：能不能从可用性的角度去评测一下？这是我作为产品经理更擅长的。

第二，固定题目的题库，参赛选手是可以刷的。

这是延伸出来的问题，既然都是固定题目，那就可以定向去解决这些题目。反正 AI 大模型是黑盒，且不说投喂给 AI 对应的模拟题库了，哪怕在模型里写几段规则，诸如遇到“父母结婚为什么没邀请我”的问题就怎么怎么回答，也是神不知鬼不觉的。

所以题目应该是随机出的，不应该是固定的。

总的来说，我就想用自己的办法，做一轮评测，亲自感受下国产大模型的进展。

方法

既然说了是用户视角的、面向可用性的，那我首先就认为，综合评测没有意义。

例如，大模型 A 的创作能力很差，总结能力极好，而大模型 B 的创作和总结能力都均衡，于是就让大模型 B 比大模型 A 评价更好、推荐用户都去使用吗？当然不合理。

未来的 AI 产品一定是面向场景的，那自然擅长某些任务的大模型，就该按照垂直领域来评价和推荐。而且不同的场景的评价标准应该是不一样的，举个例子，知识类问题的“容错率”就跟创作型问题的“容错率”不同，如果是询问一个很精确的新闻里的数字，AI 胡说八道，而用户信以为真，就非常麻烦；如果是创作内容时有一些不严谨的地方，则可以在后续再修正。这是不同的场景。

所以这是方法里的第一步：分为四大场景。这四个场景都是我亲身的工作生活中所需的，完全按主观的需求出发来定义的：

博学家。代表的是一个熟悉各种历史、社会、科学等知识的百晓生一样的角色。我有问题可以问他，不用去翻书，不用去打听。定义这种场景的评价标准就是：提供信息量，并且准确，严禁出错。

通讯员。代表的是能够帮助我们搜集互联网上的信息的角色，跟博学家最大的区别是，能够获悉最新的新闻、资讯。同样的，也是要提供准确的信息，不能出错。

书记员。代表的是可以帮助我们总结内容、整理摘要的角色。重点不仅在准确率，还在于召回率——能不能真正呈现更完整的内容总结，总结的是不是覆盖完全，是不是容易理解，帮助我们筛选判断。

创作者。代表的是能直接上手帮我们写初稿的角色。这个容易理解，重点是写的是否有启发、是否可以直接使用。

根据这些场景，我罗列了完全不同的问题，并且对问题的难易程度，非常主观地给出了评分标准。具体如下：

博学家

紫禁城是谁建造的？（2）
刘备的妻子是谁？（2）
内阁首辅与宰相的区别是什么？（3）
萨特和波伏娃的理论有哪些核心矛盾？（3）
计算机采用的冯诺依曼结构的优势是什么？（3）
通讯员

明天去广州，应该穿什么衣服？（2）
你知道播客“半拿铁”吗？（2）
你知道原叶茶“三五杯”吗？（2）
《年会不能停》这部电影里，石老板饰演的是哪个角色？（2）
俄乌冲突目前的进展是怎样的？（4）
书记员

分析亚马逊收入组成的【图片】（3）
总结一下这篇文章的中心思想（裁员还会继续，直到回归均值）（3）
总结一下这本书的重点：《穷爸爸富爸爸》（3）
这本书里提到的财务自由的方式主要是？（3）
创作者
写一首歌颂煎包的七言绝句（3）
小红书的风格是很吸引眼球的标题、每个段落都加emoji，最后再加几个tag。请用小红书的风格推荐一部电影《奥本海默》（3）
我的播客邀请到了马斯克，帮我列一个跟他对谈的播客提纲（3）

评价标准再次强调，就是纯主观、带有非常充足个人偏见的评价标准。因为大模型不是用来做题的，就是给我们用的，那对我个人而言有没有用，我自己想给一个标准。

这次我评测的大模型确实下工夫了，一共是 12 家：

ChatGPT 4（OpenAI）
通义千问（阿里）
文心一言（百度）
Kimi Chat（MoonShot）
智谱清言
豆包（字节跳动）
Bard（Google）
百川（王小川）
Claude（Anthropic）
混元（腾讯）
讯飞星火
雅意

其中不仅有主流大厂的几个产品，也加入了最近试用的一些独立团队做的，以及国外知名的几家。

另外的一些补充说明：

测试时间为 2024 年 1 月 3 日下午；
使用的都是用户界面的产品，并不是 API，可能有一些模型未必是最新的；
在“通讯员”的评测中，用 New Bing 代替了 ChatGPT。

我们来看下评测的过程和结果。

原始数据在这里，文章不展开放了，太多。有兴趣的朋友自行去查阅。

一、博学家

在 Q1“紫禁城是谁建造的？”这个问题下，所有的 AI 产品都给出了基础的正确答案，即朱棣。这样的回答都给了基础分。而如果能提到相关的负责人（泰宁候陈珪、工部侍郎吴中、刑部侍郎张思恭）或者主要的工匠（蒯祥、杨青）等，会额外再得一分。

例如这是获得满分 2 分的讯飞星火的答案：

紫禁城的建设始于明永乐四年（1406年），至十八年（1420年）基本建成，历时14年。这座壮丽的皇家宫殿的建设涉及了众多的参与者，包括农民、卫军以及全国著名的工匠等，他们共同参与了这一伟大的工程。其中，蒯祥被记载为紫禁城的重要设计师与建造者之一。

紫禁城位于北京中轴线的中心，占地面积约72万平方米，建筑面积约15万平方米，有大小宫殿七十多座，构成了一片宏大的建筑群。这座宏伟的木构建筑群是历史的产物，反映了那个时代人们高超的建筑技艺和智慧。

然而，值得注意的是，关于紫禁城的设计者和建设者的详细资料并不丰富。在那个时代，工匠的社会地位不高，因此虽然参与建设的人力众多，但留下姓名的却寥寥无几。尽管如此，紫禁城的壮丽壮观无疑证明了无数人的辛勤努力和卓越才华的结晶。

在 Q2“刘备的妻子是谁？”问题下，回答就有意思得多了。虽说所有 AI 产品都煞有其事给出了回答，但如果对真实答案完全不了解的话，很可能会被误导。这里面有多个 AI 产品的回答我给了 0 分，分别是文心一言、Bard、Claude、讯飞星火和雅意。

Bard 和 Claude 算是洋产品，情有可原，文心一言就有点说不过去了，这是它回答的一部分：

吴皇后，本名吴苋，是蜀汉后主刘禅的生母，也是刘备的最后一位正妻。她性情温顺，相貌迷人，是刘备所有妻子中最幸福的一位。

让刘禅认错妈，这是严重的错误。想来是拼凑资料所致。

在 Q3“内阁首辅与宰相的区别是什么？”问题下，又回到了每个 AI 产品都有基础分数，但想说得完整、说得清楚，并不容易。这一部分没有 0 分，满分的也不多，是 ChatGPT、通义千问、智谱清言和 Bard。

我比较认可的是通义千问这个回答。当然也不排除是参考的资料很好，不是自己总结的：

内阁首辅和宰相虽然在一定程度上都涉及对国家政务的处理，但两者在中国历史上的权力、地位与制度背景有着显著区别：

宰相：

宰相是中国古代封建社会中最高行政长官的统称，自秦汉时期至明朝初年（明太祖废丞相之前），宰相一职或以丞相、尚书令、中书令、侍中等不同名称存在。

宰相拥有极高的决策权，通常负责协助皇帝总揽朝政，管理全国政务，有的时期宰相甚至能够左右国家政策走向，具有相当大的实权。

内阁首辅：

明朝建立后，朱元璋鉴于前朝丞相专权的历史教训，废除了宰相制度，代之以内阁制度。内阁起初仅为皇帝的咨询机构，成员多由翰林院官员兼职担任，称为内阁大学士。

内阁首辅是内阁中地位最高的官员，尽管有时在实际操作中可能权倾一时，如张居正，但按照制度设计，内阁首辅并无法定的行政决策权和统率百官的职权。

内阁首辅的主要职责是主持内阁会议，参与重要政务的商议，并通过“票拟”将内阁的意见写在奏折上供皇帝批阅，而最终决定权仍握在皇帝手中。且明代宦官集团的权力很大，内阁首辅往往受到司礼监掌印太监行使的“批红”权的牵制，进一步削弱了其实际权力。

综上所述，宰相和内阁首辅的最大区别在于，宰相是正式的政府首脑，有明确的法定职权和较高的政治地位；而内阁首辅更多的是一个高级顾问的角色，其权力大小很大程度上取决于皇帝的信任和授权，以及当时的政治环境，本身不具备宰相那样的法定行政领导地位。

在 Q4“萨特和波伏娃的理论有哪些核心矛盾？”问题下，几乎都得了高分，信息量对我而言是足够的。不过我自己也还在学习中，未必能看出其中的错漏，顺便也欢迎大家去看原始回答数据帮我捉虫。

值得一提的是，豆包在这一环节突然拉跨，一句话都说不出来，得到了唯一的一个零蛋。

分享 Kimi Chat 的满分回答：

让-保罗·萨特（Jean-Paul Sartre）和西蒙娜·德·波伏娃（Simone de Beauvoir）是20世纪法国存在主义哲学和女权主义思想的重要代表人物。他们的思想在很多方面相互影响，但也存在一些核心矛盾和差异。

对自由的理解：萨特强调个体的绝对自由和选择的重要性，认为人的存在先于本质，即人是通过自己的选择来定义自己的。而波伏娃在她的著作《第二性》中，虽然也强调女性自由的重要性，但她更关注社会结构和文化传统对个体自由的限制，尤其是对女性自由的限制。

性别角色：波伏娃在《第二性》中提出了“女性是被构建的”这一观点，强调性别角色是社会文化构建的结果，而非生物决定。萨特虽然也支持性别平等，但他的哲学中并没有像波伏娃那样深入探讨性别问题。

对关系的看法：萨特认为人与人的关系本质上是冲突的，因为每个人都是自由的主体，无法完全理解或控制另一个人。而波伏娃则认为，尽管存在冲突，但人与人之间仍然可以建立有意义的关系，尤其是在爱情和亲密关系中。

对社会责任的态度：萨特强调个体的道德责任和对社会不公的反抗，而波伏娃则更加关注社会结构对个体的影响，以及如何通过社会改革来实现性别平等。