智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

2024-08-31 阅读 49 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

智谱版GPT-4o的玩法：辅导作业、口语教练、厨房管家

曾经，GPT-4o的“三段感情迭代”，惊艳了一大批用户。但智谱清言像是个大直男，当要求它“更有感情一点”，它会理性地朝你“泼冷水”：作为一个人工智能，无法表达感情。

不过，智谱清言的视频通话功能，有更适合中国人“活到老学到老”体质的玩法。

比如，它可以是你的随身英语教师。打开摄像头后，你也能体验一把“走到哪，问到哪，学到哪”的高浓度英语学习。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△询问番茄的英文。来源：智谱AI

当然，它也可以是“哪里不懂拍哪里”的数学老师。智谱清言的讲解，质量甚至和真人教师有的一拼，不仅循循善诱，还有问答互动。家长再也不用为辅导作业而烦恼！

△解答混合运算选择题。来源：智谱AI

平时在家，智谱清言也揽下了生活管家的活。

比如，它能一眼认出瑞幸的包装袋，立马给你来了一段瑞幸历史的科普。不过，智谱清言最后开了小差，将本意为咖啡该怎么储存的问题，理解成了包装袋该怎么储存……

△识别瑞幸包装袋。来源：智谱AI

目前，视频通话的过程还无法储存在历史记录中。不过，有了“长了眼”的智谱清言，就仿佛同时下载了作业帮、小红书和下厨房。

新视觉模型上线，看得懂视频，也看得透网页源代码

对于智谱AI而言，2024年绝对是在多模态上狂飙的一年。

在KDD上，智谱AI更新了“模型全家桶”，既发布了新一代的语言基座模型，也发布了升级后的多模态家族：图像/视频理解模型GLM-4V-Plus、文生图模型 CogView-3-Plus。

先来看语言基座模型GLM-4-Plus。

有意思的是，GLM-4-Plus的训练，大量采用了高质量模型合成数据。事实证明，AI合成数据已经可以有效运用于模型训练，降低训练数据的获取成本。

从结果来看，GLM-4-Plus的语言理解能力，与GPT-4o和Llama3.1-405B不相上下。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△综合能力benchmark。图源：智谱AI

而在长文本能力的表现上，GLM-4-Plus和GPT-4o、Claude 3.5 Sonnet两个顶尖模型也并驾齐驱。在清华大学刘知远团队做的长文本测试集InfiniteBench上，GLM-4-Plus甚至略优于两个国外天花板模型。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△长文本能力benchmark。图源：智谱AI

同时，通过采取近端策略优化(PPO，一种提升复杂任务决策能力的训练方法)，GLM-4-Plus的数据、代码算法等推理能力有了明显提升，并且能够更好反映人类偏好。

目前，GLM-4-Plus百万Tokens的处理价格为50元，与百度最新的大模型ERNIE 4.0 Turbo差不多持平（百万Tokens输入30元、输出60元）。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△GLM-4-Plus定价。

多模态能力的更新，是最精彩的部分。

相较于上一代GLM-4V，视觉大模型GLM-4V-Plus增加了视频和网页理解能力。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△视觉能力benchmark。图源：智谱AI

比如，只要输入智谱AI官网的截图，GLM-4V-Plus立刻就能转化成html代码，帮助你快速复刻网站。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△GLM-4V-Plus能力测试。图源：作者测试

与一般视频理解模型不同，GLM-4V-Plus不仅看得懂复杂视频，还具备时间感知能力。这意味着你问模型视频第xx秒的内容，它也能给出答案。不过截至发稿前，智谱AI开放平台的模型体验区还不支持上传视频。

美中不足的是，相较于逆天的视觉多模态理解能力，GLM-4V-Plus的多轮对话和文本理解能力显得有些“拉垮”。看来，GLM-4V-Plus离成为GPT-4o，还有相当距离。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△GLM-4V-Plus视频理解能力。图源：智谱AI

在KDD上，智谱AI还发布了新一代的文生图模型CogView-3-Plus。与近期文生图界的“当红炸子鸡”FLUX相比，CogView-3-Plus 20s版本的各项能力基本能打平。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△文生图能力benchmark。图源：智谱AI

输入提示词：桌子上有一台笔记本电脑，电脑旁边放着一个透明玻璃杯，这是一个圆柱形的杯子，半杯水还冒着热气，杯身折射了些许阳光。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△CogView-3-Plus能力测试。图源：作者测试

同时，CogView-3-Plus也支持图片编辑功能，比如改变图中物体的颜色、替换物品等等。

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

△CogView-3-Plus图片编辑。图源：智谱AI

给2024年1月发布的几款模型，加上“Plus”的后缀，智谱AI花了超过7个月——这也是2023年以来，智谱AI发布模型的最长周期。

可见的是，GPT-4o，对于AI大模型企业而言，是一道能力的分水岭。随着多模态能力的融合，语言理解的“黑箱”刚被打开，又很快被GPT-4o合上了。

多数国内模型厂商的策略是：分而治之，先增强不同模态的单模态模型能力，再攻克融合的难题。

智谱AI的模型矩阵，目前仍然在各自迭代能力的“分治”阶段，而视频通话功能的上线，让用户已经看到了初步多模融合的影子。

文章来源于“周鑫雨”

执教10年46枚美国IMO金牌！对话前总教练罗博深：不看好AI教育，不建议AI辅助学数学

关联网址

关联标签

#AI #大模型 #视频通话功能

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

智谱版GPT-4o的玩法：辅导作业、口语教练、厨房管家

新视觉模型上线，看得懂视频，也看得透网页源代码

执教10年46枚美国IMO金牌！对话前总教练罗博深：不看好AI教育，不建议AI辅助学数学

三代悟空同台飙戏，死侍跳「科目三」，AI 视频的新顶流是个造梗神器

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、下厨房的影子

智谱版GPT-4o的玩法：辅导作业、口语教练、厨房管家

新视觉模型上线，看得懂视频，也看得透网页源代码

执教10年46枚美国IMO金牌！对话前总教练罗博深：不看好AI教育，不建议AI辅助学数学

三代悟空同台飙戏，死侍跳「科目三」，AI 视频的新顶流是个造梗神器

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿