《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

2024-08-16 阅读 36 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

可在网页端试玩2分钟

看到这则讯息，量子位一秒冲到了Tavus的官方网站。

在官网上，可以在线体验2分钟这个“史上最快对话视频”。

根据既有设定，体验时的对话对象是Tavus塑造的卡特。

卡特的形象定位是AI视频研究公司Tavus的一名员工，以幽默的方式回应，同时很乐于助人。

就是下面这个男人：

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

虽然卡特是个虚拟人形象，但和他视频，就像和自己朋友视频一样。

官方建议，授权摄像头和麦克风后，和卡特聊天的时候尽量呆在一个安静的房间里。

以下是网友的在线试玩录屏：

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

卡特在交谈中提到，人们最喜欢跟他讨论的几个话题，除了跟他打听Tavus运用的AI技术，就是分享自己的每日心路历程，以及讲笑话。

他当场就讲了个笑话：

问，为什么自行车不能靠自己就站在那儿？

答案是，因为它too tired（Two tires）。

讲完过后，卡特自己还自己给自己捧场，哈哈了两声。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

量子位也实际体验了2分钟，总体感受如下：

首先，Tavus的响应速度确实非常快，符合官方号称的“一秒以内”。

哪怕是他在说话的过程中你突然出声，卡特也能立马停下来倾听你的最新发言。

其次，虽然官方号称它支持30多种语言，但不管是用中文还是英文发问，问来问去，他都无法开口说中文。

我们问他“Can u speak Chinese”时，卡特会回答：“我更愿意用英文对话呢！”

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

第三，Tavus的AI确实能“用眼睛看”。

量子位试玩儿过程中，一度尬住，不知问什么是好，只能傻笑。

卡特立马开口：

Oh！你对我露出了一个微笑呢～

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

第四，在试玩版本中，卡特的口型和所说的话几乎能做到完全同步。

这也就不难怪为什么有网友试玩后表示：

确实令人印象深刻，它拥有快速响应、出色的视频和音频生成能力。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

现在，只要注册就可以使用Tavus的对话视频AI。

正式版本中，可供对话的AI形象就不只有卡特了，有男有女，身份设定从销售到生活指导等，应有尽有。

聊天所在的背景也能根据用户选择进行更换，不拘泥在办公室场景中。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

同时，还能手动输入对话内容的上下文。

可以说个性化定制程度算很高了。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

目前有免费版本，也有收费形式，对应不同的生成权益。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

基于自研模型开发

Tavus对话视频AI背后，是Tavus团队自研的Phoenix-2模型。

这是一个用音频和文本驱动的3D模型和2D GANs的组合，能生成1-2分钟的逼真短视频。

生成过程大致分为以下四个步骤：

TTS（文本转语音）——头部和肩部的3D重建——提示词脚本驱动的面部动画——高保真渲染。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

△通过差分渲染微调面部几何细节

为了让和用户对话的AI形象更逼真，Tavus团队在构建Phoenix-2的视频渲染pipeline的时候，结合了GAN和3D高斯泼溅。

这样做的原因，是传统的GAN通常受到图像分辨率的限制，而体积模型总在时间一致性的问题上有所欠缺。

因此，Tavus想到把两者结合起来。

训练GAN时，需要大量的数据集和昂贵的计算资源，且因为其二维性质和时间一致性问题，通常推理时间和视频质量都会受限。

Tavus把3D模型作为“中间体”，实现了超过100 FPS的渲染，并且由于动态物体周围的物理感知约束，实现更高程度的可控性和通用性。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

△比较2D和3D头部说话模型之间的差异

另外，Phoenix-2模型比起系列前作的改进之处，就是替换掉了初代Phoenix模型的NeRF。

转而利用3D高斯泼溅来学习引入如何驱动3D空间中的面部动态变形，并利用该信息根据看不见的音频来渲染视图。

团队成员表示，比起NeRF，3D高斯泼溅在数据、内存、计算复杂度、流程、渲染效率等方面都表现更好。

基于3D高斯泼溅的Phoenix-2模型的pipeline，能够以比初代模型快70%的速度进行训练，以60+FPS的速度进行渲染。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

Tavus表示，对话过程中，有回合结束检测和可中断性，让用户感觉进行的对话更真实。

此外，由于面部信息非常敏感，团队提供安全检查、安全协议、自动内容审核和反幻觉检查来保护信息安全。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

值得一提的是，Phoenix系列模型还支撑了Tavus的另一个产品——

生成用户数字孪生形象的对话视频。

只需要提供2分钟素材、花费1美元（起），就能调用API生成视频内容。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

官方提示可提供端到端的解决方案，有以下能力：

使用API，构建安全、真实的数字孪生或AI Agent
定制LLM、对话的人物角色和背景
在嵌入式会议室中流式传输对话
记录、转录并分享对话
通过生产级可扩展性处理高流量

“不<1s，就不是人了”

Tavus团队是一家成立四年的AI视频初创公司，规模不大。

成员大多来自Amazon、Descript、Google和Apple等。

公开资料显示，截至今年3月，该公司已经获得了红杉、Scale VC、YC的A轮投资，融资额约1800万美元。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

Tavus的联合创始人兼CEO，名叫Hassaan Raza。

曾在谷歌和苹果工作过。

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

而该公司的联合创始人兼COO在Producthunt留言表示，对话视频AI的制作花费了很长时间，研究、工程和建造大约花费了数千个小时。

至于为什么要追求1秒或者更短的延迟？

官方也给出了答案，是在尽可能模拟人类和人类的视频对话：

因为如果反应速度不低于1秒，那（对面跟你聊天的）就不是人了。

文章来源于“量子位”，作者“衡宇”

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

“在线版FLUX”已支持ControlNet，无需部署开箱即用，还能在线训练LoRA模块

关联网址

关联标签

#AI #AI技术

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3665 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

可在网页端试玩2分钟

基于自研模型开发

△通过差分渲染微调面部几何细节

△比较2D和3D头部说话模型之间的差异

“不<1s，就不是人了”

“在线版FLUX”已支持ControlNet，无需部署开箱即用，还能在线训练LoRA模块

上线“魔力工作室”功能，Canva将AI融入到视觉设计中丨最前线

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3665 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

《Her》有形象了！给AI打视频电话，几乎无延迟，红杉YC投了

可在网页端试玩2分钟

基于自研模型开发

△通过差分渲染微调面部几何细节

△比较2D和3D头部说话模型之间的差异

“不<1s，就不是人了”

“在线版FLUX”已支持ControlNet，无需部署开箱即用，还能在线训练LoRA模块

上线“魔力工作室”功能，Canva将AI融入到视觉设计中丨最前线

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿