一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

2024-08-31 阅读 61 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

第一手实测

通用知识、视觉理解、图像生成体验升级

我们首先对刚刚发布的 GLM-4-Plus 的通用知识掌握程度、逻辑推理等相关能力来了一波测验。

先看官方给出的指标。从结果来看，在与 OpenAI 最强旗舰模型 GPT-4o 的全面较量中，GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

对于逻辑推理任务，先让它尝试解答最近一段时间让大模型犯糊涂的「数字比较」问题。从结果看，GLM-4-Plus 很懂小数位比较的逻辑思路。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

给 GLM-4-Plus 上上难度，看它能不能搞定经典的「瓶子装水」问题。显然它可以一步步厘清破解思路，并给出准确答案。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

GLM-4-Plus 对 AI 圈名人 Ilya Sutskever 的最新近况也了如指掌，说明背后的搜索功能做得也不错。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

接下来，我们测试了 GLM-4V-Plus 的图像理解能力。

给出一张有关英伟达的漫画，GLM-4V-Plus 能 get 到这是用淘金热比喻当下的 AI 热，指出英伟达是铲子卖家，其他 AI 公司是铲子买家，和漫画寓意相符。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

接下来，我们又给了它一张包含多个人物的梗图。结果发现，GLM-4V-Plus 不仅能够描述出人物的穿搭、表情以及照片里模糊的背景，还能看出几个人之间的关系以及表情的成因，效果出乎意料。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

GLM-4V-Plus 在「实战」中不仅可以理解网页内容，将它们转换为 html 代码，而且能够对复杂的视频内容进行透彻的理解与分析，并做到与人类之间类似的沟通。

我们也让 GLM-4V-Plus 生成了机器之心官网截图的 html 代码。它基本对设计稿进行了分区规划，排版方式用了比较现代的 flex，支持一定的响应式，具有一定的基于当前代码继续补充细节的可行性。

从代码功能来看，它能够正确识别模块的内容大概是什么（比如是 Logo、是 Banner 还是新闻），并且语义化给出 class 命名（如新闻板块命名为.news）。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

眼见为实，GLM-4V-Plus 强不强，下面这个视频示例也会给我们答案。我们喂给模型一段 11 秒时长的篮球比赛现场视频：

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

然后分别从视频总结、推理、时间问答等几个角度考验 GLM-4V-Plus。

Q1: 这个穿绿色衣服的球员在整个视频都做了什么？

A1: 在整个视频中，穿绿色衣服的球员在场上运球，然后跳起将球投入篮筐。

Q2: 这个视频的精彩时刻是什么？发生在第几秒？

A2: 这个视频的精彩时刻发生在第 4 秒，当时穿绿色衣服的球员跳起并将球投入篮筐。

可以看到，GLM-4V-Plus 显然准确地 get 到了视频传达的内容，并进行了全面的总结。不仅如此，它还能根据「看到」的某些显著特征（如球员的服装）来展开进一步合理的推理判断；并针对具体时间节点的内容进行概括总结，在某种程度上可以说具备了时间感知能力。

我们测试了当前大火的《黑神话・悟空》片段，GLM-4V-Plus 也能按照时间顺序描述清楚，而且描述语言文学性高，与视频片段高度适配。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

一个穿着传统中国盔甲的动画孙悟空，站在多云的天空下，散发出决心和战斗的准备。随着时间的推移，他的装束被详细展示，包括金色的盔甲、红色的流苏和类似羽毛的头饰，背景是雾蒙蒙的。他的表情从严肃的决心变为沉思，暗示着内省。场景转换到一个雾蒙蒙的山区地形，在那里，一个穿着华丽盔甲的战士面对着一个巨大的、有鳞片的生物，预示着一场史诗般的对抗。随着战士和生物之间的紧张关系升级，最终在多云的天空下，一场戏剧性的对峙达到高潮。

最后，从 CogView-3-Plus 生成的一系列图像示例中，我们体验到了文生图能力的显著提升。

比如在下面这张图中，我们看到 CogView-3-Plus 可以非常准确地生成单词，这在很多文生图应用中都是高频翻车区。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

在下面这张图中，CogView-3-Plus 不仅准确还原了马斯克的面部特征，还创意性地给马加上了类似电路的纹理，非常富有想象力。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

CogView-3-Plus 对于古诗词的理解有些出乎意料，不仅画出了所有的元素，还还原了诗词中的意境。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

人物的生成则非常逼真，而且细节丰富、氛围感强。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

可以说，智谱「超大杯」模型系列的实际体验效果，「兑现了」性能指标上的全面提升。

One More Thing

智谱版「Her」正式上线

除了以上基础模型的进展，智谱旗下 C 端产品 —— 生成式 AI 助手智谱清言也迎来了重磅升级。

我们知道，在 GPT-4o 出现后，大家都在猜测，下一个 Killer APP 的交互方式会是什么样子。很多人看好语音，但毋庸置疑，语音 + 视频会更加方便，所以顶级大模型厂商都在想方设法给自己的大模型安上「眼睛」，让大模型不仅会写、会听、会说，还会看。

在国内，智谱是首个把这项综合功能做成 C 端产品并开放给部分用户的公司。这部分用户只要下载最新版本的智谱清言，然后打开视频通话窗口，就可以和它视频通话。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

这个视频通话跨越了文本、音频和视频模态，并具备实时推理的能力。随着该功能的加入，清言 APP 成为首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。

从官方 demo 来看，这个功能可以用在陪伴、教学、办公、生活等多种场景。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

为了验证效果，机器之心在第一时间进行了尝试。

首先，我们尝试了一道小学数学题。在看到题目后，清言似乎自动代入了一个小学老师的角色，语速放慢且富有耐心。而且，它不是直接给出结果，而是用苏格拉底启发式教学法，引导提问者一步一步算出答案。这不就是家长想要的「作业辅导」搭子吗？

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

接下来，我们尝试了一下工作场景 —— 让清言帮忙解读一篇英文报道。可以看出，它不仅能把新闻概括出来，还能自行扩展新闻背后的信息，可以考虑拿来当工作搭子了。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

目前，该功能也开放了外部申请。现在到智谱清言 APP 或登录 PC 端，就能站内申请内测。智谱表示会持续迭代并逐步放开规模，尽快让全员都可以使用。

此外，智谱还透露，这其实只是一个 beta 版本，清言的视频通话功能近期还会迎来大的版本迭代。看来，智谱有意将 C 端大模型卷到会写、会听、会说还会看的 Next Level，在行业内掀起新一轮竞赛。

密集的迭代背后

智谱有着充足的技术弹药

在众多大模型公司中，智谱是非常有辨识度的一家。这一方面是因为，智谱的模型早早就做到了接近 GPT-4 的水平；另一方面则是因为，没有哪家国产大模型公司像智谱的技术动作这样密集。

比如 2024 开年以来，智谱这家公司就一直「没消停过」。

比如，在模型方面，智谱在 1 月份就迭代出了新一代基座大模型 GLM-4。该模型整体性能成为当时最接近 GPT-4 的国产大模型。如今，GLM-4 再度进化，时间间隔也不过半年多。

在战火纷飞的小模型战场，智谱也没闲着，推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中，GLM-4V-9B 还是多模态的，通过加入 Vision Transformer，该模型仅以 9B 的参数量就实现了比肩 GPT-4V 的能力。但和后者不同的是，这个模型是开源的。

而在产品方面，智谱也是在 1 月份就推出了对标 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中，GLM-4-All Tools 实现了根据用户意图自动理解、规划复杂指令，自由调用文生图、代码解释器、网页浏览、Function Call 等多项工具来完成复杂任务，这意味着 GLM 系列模型的全家桶能力实现工业化。GLMs 则实现了个性化智能体定制，帮助没有编程基础的用户实现大模型的便捷开发。

在清言这款 C 端产品上，智谱也是更新不断，其中动静最大的要数最近发布的视频生成功能「清影」。只要你有好的创意（几个字到几百个字），再加上一点点耐心（30 秒），「清影」就能生成 1440×960 清晰度的高精度视频。而且，和 OpenAI 迟迟没有上线的 Sora 不同，清影同源的视频生成模型 ——CogVideoX 也是开源的，而且一路从 2B 开源到 5B（未来可能更大），这在国内外开发者群体中都引发了不小的轰动。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

今天 HuggingFace 热榜，CogVideoX-5b 排名第三，超过 Llama 了。

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

据悉，智谱开源模型累计下载量已突破 2000 万次。

可以看到，从基础大模型到小模型，从语言到多模态，从技术到产品，智谱在各个方向全面发展，且全方位对标 OpenAI。这在国内大模型厂商中并不常见。这是一种技术储备充足的表现。

在竞争激烈的全球大模型市场中，智谱正通过频繁的技术迭代和开源举措，不断推动行业和生图的发展，赢得了越来越多的关注与认可。

文章来源“机器之心”，作者“张倩、杜伟”

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

开源启动！18个月Llama系列下载量近3.5亿，黄仁勋：快到难以置信

关联网址

关联标签

#AI #大模型 #视频通话功能 #重磅升级

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

第一手实测

通用知识、视觉理解、图像生成体验升级

One More Thing

智谱版「Her」正式上线

密集的迭代背后

智谱有着充足的技术弹药

开源启动！18个月Llama系列下载量近3.5亿，黄仁勋：快到难以置信

10亿融资、6家初创，AI 编程赛道成为融资新热门

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

第一手实测

通用知识、视觉理解、图像生成体验升级

One More Thing

智谱版「Her」正式上线

密集的迭代背后

智谱有着充足的技术弹药

开源启动！18个月Llama系列下载量近3.5亿，黄仁勋：快到难以置信

10亿融资、6家初创，AI 编程赛道成为融资新热门

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿