昨天,在 KDD 国际数据挖掘与知识发现大会上,智谱宣布「清言」App 迎来了重要更新,上线了「AI 视频对话功能」。
据报道,该功能还是国内首个面向 C 端开放的。
相信不少朋友的朋友圈被下面这条视频刷了屏。
看完了视频的我直呼离谱,智谱这是要将「对标 OpenAI」进行到底啊!
至于真实实力如何?到底像不像演示中的那么炸裂?
实践出真知,特工宇宙有幸拿到了内测资格,替大家体验测试一番。
先来个省流版:综合体验下来的主观感受是,屏幕那头的 AI 像是个 T 型人格的「淡人」,语气没有任何机械感,情绪稳定到泰山崩于前而面不改色,温柔文静又不失特工少女般的落落大方,那扑面而来的抑扬顿挫,就像那一朵水莲花不胜凉风的娇羞。
此外,多模态理解能力还是挺能打的,在部分场景上的识别和解答都表现不错,对话响应速度还是比较快的,大概在 1-2s 左右,并且支持插话打断。
除了在一些较复杂刁钻的问题上的表现稍有逊色之外,其余回答基本上都达到了预期。虽然效果没有非常惊艳,但是也足够让人眼前一亮,如此也确实配得上「国内首个」的名号。
这一次,智谱离「让机器像人一样思考」,更近了一步。
特工宇宙的小伙伴连夜录制了测试视频(虽然略显朴素,但是足够真实)。
让我们一起来看看。
第一个测试了下基础的多模态识别能力,可以看到 AI 较为准确地识别到了小猫以及它的一些样貌姿态(不知道为啥选这个 Case,可能是想晒下猫猫?
第二点就还蛮让人惊喜的,我看其他测评的没怎么提到,就是下一次唤起视频对话时,有概率 AI 会回顾之前的对话内容作为开场白。
比如视频中,我们再次打 Call 时,她还记得我们的小猫猫。
00
第三个,我们复刻了发布会中你画我猜的「画蛇添足」,结果也回答正确(不是哥们,画的稍微有点抽象了哈)
第四个,做了几个小学数学题也答对了(还挺有意思的是,她知道了答案但不直接告诉你,有点一步步引导你的感觉)
第五个,整了个复杂的,AI 正确的识别出一共有 20 款微缩玩具,英文也说的挺溜(没错咱们办公室确实有很多好玩的东西)
第六个做了个穿搭测试,什么衣服裤子配这顶帽子呢?回答的也不错。
不过把 ST.MORITZ(圣莫里茨,瑞士一度假小镇)中的 Z 识别成了 2,但也无可厚非,确实很容易看错。
此外,我们还挖掘了许多有趣的场景,由于篇幅有限便不再赘述,感兴趣的朋友可以在清言 APP ,或者登录 PC 端(chatglm.cn),申请内测。
除了 AI 视频通话功能以外,继 GLM-4-Flash 完全免费之后,在这次大会,智谱还推出了推出了新一代全自研基座大模型 GLM-4-Plus.
性能全面提升,拥有更强的长文本处理和多模态能力。
能力有提升多少呢?据官方表示,在语言文本能力方面,GLM-4-Plus 和 GPT-4o 及 Llama 3.1 405B 相当。
LCB: LiveCodeBench
NCB: NaturalCodeBench
此外,还有图像/视频理解模型 GLM-4V-Plus,和文生图模型 CogView-3-Plus.
前者或是国内首个通用视频理解模型 API,后者据说也能达到当前最优的 MJ-V6 和 FLUX 等模型的效果。
而这全新的三个模型,也都同步上线了智谱的 Bigmodel 开放平台,可以在线体验或直接调用 API 测试。
在这一点上,智谱就比 OpenAI 实诚多了,有啥好东西它是真的直接开放。
BTW,在测试的过程中我萌生了一个不怎么搭边的小问题。
就是咱这个形象为什么是个「大象」?
我突然想到 GLM 大模型的 Logo 好像就是一只大象。
我仔细盯着这 Logo 半天,似乎发现了里面的一些玄机。
白色区域原来是个 G 和 L,整只大象组成了个 M,由此代表了 GLM,然后为什么选择大象呢,我猜测是源自智谱的 Slogan,让机器「象」人一样思考。
起初的我不觉明厉,但顿悟的我拍案叫绝。
One more thing,OpenAI 这两天又在聊新的融资,市值最高的三家公司苹果、微软、英伟达正在洽谈参与投资,OpenAI 的估值将超过 1000 亿美元。
那么,祝愿全面对标 OpenAI 的智谱,也能蒸蒸日上。
文章来源“特工宇宙”,作者“特工十五、特工小鹏”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则