讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

2024-10-25 阅读 37 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

跟讯飞星火视频面对面

此次发布会的重头戏，就是讯飞星火在多模态视觉、超拟人虚拟人上交互能力的提升。

在大模型的驱动下，我们正在迎来一个崭新的万物智联时代。新时代下的交互标准，科大讯飞有自己的定义。

董事长刘庆峰介绍道，在已有远场高噪、全双工、多语种多语言等基础上，还包括多模态、超拟人、个性化等特点。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

其实在今年8月，讯飞版《Her》就已经发布。这次语音能力升级基础上，还具备了视觉能力、并拥有了自己的形象。

简单来说，实现了从语音交互到音视频流的实时多模态交互的跨越，情感感知（包括项环境、文字、物体、姿态、着装等）更全面、任务理解（包括语音、手势、行为、情绪等）更精准。

在现场，讯飞研究院院长刘聪率先展示了语音能力，除了本身语气和情感度更加逼真以外，它还能跟你玩角色扮演游戏。

模拟个孙悟空、小猪佩奇都不在话下~

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

俺老孙一路只顾得披荆斩棘，降妖除魔。要说有趣，当然是捉弄八戒那呆子最有趣！

在此基础之上，讯飞版Her现在能面对面聊天，它能根据语义、语音节奏来自动生成表情和动作。

比如听到几百万人在线上看表演时，一些小惊讶、开心激动的表情。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

据介绍，这也是业内率先实现「口唇、表情、动作」语义对齐、贯穿的超拟人数字人。

而一旦打开摄像头，它还能基于动态的视频画面来进行对话交流。

比如识别各种物体，各种花草、建筑还有小玩具。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

龙船花，好好好，小知识get。

更炸裂的是，就是连什么酒水饮料，哪个牌子的水乳面霜都能分清！

在现场，它不仅认出了这是雪花秀的产品，还科普了具体组成和用处，甚至纠正了大的那瓶不是眼霜是面霜……

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

此次新增的视觉能力，在常见视觉知识问答准确率90%+、场景图文理解准确率也超90%+。

这样一来，可以在出境购物了解商品信息的时候“哪里不懂问哪里”，识别食物、玩游戏，陪孩子进行绘本伴读。

而量子位也第一时间进行了一波实测。目前这一功能在讯飞星火APP右上角「小星畅聊」里面，点击右边「摄像头」就能开启对话了。

随便拍了拍天空，说一句“今天天气不错”，它会随声附和一句；还会给你推荐合肥推荐好玩的地方。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

而将摄像头指向1024开发者论坛，它能准确解读出来，并给你推荐~

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

可以看到，此次的交互能力不管是在拟人度、情感性、理解能力等都有了很大的提升。而除了能看能听能说，你还可以捏一个自己——创建一个属于自己的虚拟人。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

同样是讯飞星火APP右上角，点击「创建智能体」。

只需上传一张照片，创建自己的AI形象，包括性格职业信息人设等自定义设置；然后再根据一句话复刻语音，就能完成了，已支持1300+种人设打造。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

这语气这形象确实很像数字世界的自己，以后就可以派它来对接客户了。（不是）

目前，讯飞超拟人数字人的声音自然度可以达到4.2分。刘庆峰称，最好的播音员可以达到5.0分左右，真人水平一般为4.0分左右。

不过这些能力展示，也只是此次讯飞星火底座升级的一部分。

讯飞星火4.0 Turbo正式发布

今年讯飞星火大模型迎来重大升级——星火4.0 Turbo发布。

基础能力上，数学、代码、特定领域长文本能力等七大能力方面已经全面超越GPT-4 TUrbo，效率也相对提升50%。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

尤其是数学方面，刘庆峰透露，目前已经完成超长思维链、树搜索和自我反思评价等算法验证，预计今年年底将实现类o1的高难度数学能力显著提升。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

代码能力层面，星火在HumanEval测试集上，星火4.0 Turbo性能已超越GPT-4o。与此同时，他们还推出代码7B版本，支持代码生成、代码补全等任务。

在14项中英文主流测试集中，相较于GPT-4o，星火4.0 Turbo实现了9项超越。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

除此之外，还首次发布了多语言认知大模型，覆盖包括英语、俄语、日语、汉语、法语、西语、葡语、德语等多种语言。

在汽车、家电、办公、翻译等行业的任务场景中，多语言大模型效果超过了GPT-4o

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

在一些垂直领域，此次也有多款大模型首发和升级。

比如在医疗领域的医学影像大模型，它能根据影像照片，帮助医生快速生成诊断报告。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

还有智能汽车方面的端侧星火大模型，车载应用效果损失小于1%，响应时间小于40毫秒。预计今年第四季度起，包括奇瑞、广汽、长城等多款搭载端侧大模型的车型将上市开售。

教育方面，讯飞星火联合中国教科院，发布了基于问题链的数学教师助手。它以问题链的方式来展开逻辑，包括核心问题、子问题、问题单元，这样层层推进，让学生学会主动思考、学会提问，从而改变学生的学习范式。

现在已经有来自12个区域50多位数学教研员、400多位教师参与到人机共创。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

在底层智算平台上，科大讯飞、华为、合肥市大数据资产运营有限公司三方联手，打造国产超大规模智算平台“飞星二号”，目前已经正式启动。

去年飞星一号首次亮相，据刘庆峰介绍，一年以来“飞星一号”平台已经解决了超过500次的基础软硬件问题和模型适配问题。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

大模型迎来规模化应用时代

整场发布会下来最强感知到的是，正如刘庆峰所言，大模型迎来规模化应用时代。

多模态虚拟人交互成为发布会的主角，各种垂直领域大模型的真机演示成为发布会的重点。一切围绕着应用而来，围绕着行业而来。

可以看到的是，以讯飞星火为代表，国产大模型应用生态持续繁荣。发布会一开始，刘庆峰就亮出了他们过去一年“七个第一”的成绩单。

央国企中标第一，讯飞星火成为央国企大模型第一选择
教育医疗市场第一；
智能汽车市场第一；
大模型开发者生态第一；
智能硬件市场第一；
赋能科研应用第一；
赋能工业应用第一。

截至今年10月，讯飞已经与各头部企业共建了20多个行业大模型，覆盖300+应用场景，所覆盖行业和场景数都位于国内第一位置。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

值得一提的是，除了产业上的赋能，在科研行业，讯飞星火也持续在为高校提供服务。今年物理、化学诺奖都颁给了AI科学家，对此，刘庆峰表示：

AI for Science带来科研范式的根本变革，正在成为科技发展的新引擎。

人工智能赋能科研工作的三个台阶：依托科研文献助手和代码助手提升基础工作效率，基于深度神经网络对科学任务进行精准建模，以及借助认知大模型学习领域知识并辅助设计科研实验方案。

以星火科研助手为代表，它自去年底发布以来，已在中科院下属116个院所使用。此外还联合中国科技大学研发“化学大模型”，联合中科院大连化学物理研究所研发“化工大模型”等等。

只有生态的繁荣，才能反哺技术持续进步。根据IDC研究报告和市场公开数据显示，科大讯飞在语音语义市占率中第一、大模型开发者规模第一，达78.1万。

接下来，科大讯飞计划将开放全场景资源，覆盖从技术能力到应用落地。他们还将牵头成立AI基金，用5亿创业基金推动开发者创业。

对于未来人工智能的产业发展，刘庆峰提出了他们自己行业参考。五个关键词：顶天立地、自主可控、通专结合、端云联动、软硬一体。

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

也只有把握这五个关键点，大模型才能真正解放生产力、释放想象力，带来全行业的范式变革。

文章来自于微信公众号“量子位”，作者“白小交”

生成式AI正在全新定义未来的消费者操作系统

关联网址

关联标签

#AI #大模型 #工作效率

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3660 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

183 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

跟讯飞星火视频面对面

讯飞星火4.0 Turbo正式发布

大模型迎来规模化应用时代

生成式AI正在全新定义未来的消费者操作系统

7天开发一个AI Agent应用！秘密武器：一体化数据库

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3660 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

183 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己

跟讯飞星火视频面对面

讯飞星火4.0 Turbo正式发布

大模型迎来规模化应用时代

生成式AI正在全新定义未来的消费者操作系统

7天开发一个AI Agent应用！秘密武器：一体化数据库

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿