7月30日,生数科技的视频生成大模型 Vidu 面向全球正式上线。
Vidu 是国内首个纯自研视频大模型。4 月底首次亮相以来,Vidu 凭借媲美 Sora 的视频生成效果,迅速在国内外引起广泛关注。
此次 Vidu 开放了文生视频、图生视频两大核心功能,可以生成 4s 或 8s 的视频。视频分辨率最高达 1080P,4s 视频生成实测用时 30s。目前 Vidu 无需申请,用户注册后即可上手体验。
01
新增动漫风格、角色一致性更稳定
本次上线版本中新增了角色一致性、动漫风格等特色能力。
万物皆可二次元
在风格维度上,目前市面上的 AI 视频工具大多局限于写实风格或源于现实的想象。Vidu 除了能实现常见的写实等多元风格外,还新增动漫风格。
在图生视频功能中,一些工具尽管也支持动漫图的上传,但常常出现画面崩坏、动幅小的问题。Vidu 的生成效果具备风格一致性,画面流畅。
原图
Vidu 效果
角色一致性
Vidu 还有一项功能——角色一致性(Charactor To Video)。
在「图生视频」板块中上传图片,Vidu 支持首帧图和角色图两种选择。首帧图就是常见的图生视频功能,会实现基于首帧画面的连续生成。
后者则是角色一致性生成,用户可上传人像图或者自定义的角色图,之后通过文字描述,指定该角色的场景和动作等。
比如上传一张埃隆·马斯克的照片,通过输入描述词,就可以变身超级英雄钢铁侠。
角色图
Prompt:Elon Musk wearing Iron Man armor, with a city night scene in the background
用户使用角色一致或图生视频功能,可以玩转「梗图」、「表情包」,甚至助力梦想实现。
实测案例:原图(作为角色参考图)
Prompt:一个帅哥在变身成为奥特曼,画出正在变身的过程, 从一个普通人,变成完整的奥特曼
(作为人像图参考)
02
语意理解更准确,
官方声称生成速度业界最快
语义理解
Vidu 能够理解提示词中的字母、数字等,并且能够生成文字特效。
prompt:一块生日蛋糕,上面插着蜡烛,蜡烛是数字「32」的形状
另外,Vidu 能够理解和表达第一人称、延时摄影等镜头语言,视频可控性提高。
Prompt:Capture the journey of a single rose bud as it blossoms into full bloom agAInst a plain, black background. The time-lapse photography isolates the rose, emphasizing its delicate transitions from tight bud to an open, vibrant flower.
动态一致
在涉及复杂场景的视频中,Vidu 能够将运动主体与场景做较好分离,将前后景别分离开。画面中非重点物体的动态较少,画面主体动态完整,画面的真实感更强。
大幅度、精准的动作有助于更好地表现情节和人物情绪,但是动作幅度一旦变大,画面容易崩坏。一些视频模型为保证流畅性会牺牲动幅。
相比之下,在一些主体动作幅度较大的场景中,Vidu 的动态画面流畅。
画面质感
Vidu 能生成风格片段,比如科幻、西部和浪漫等类型电影。在构图、叙事、光影等方面,AI 能达到十分接近电影级的画面标准。
另外,经典影片中极具标志性的视觉效果,Vidu 都能模仿和再现。
《银翼杀手》中的赛博朋克氛围的未来城市夜景
Vidu 能够生成影视级特效画面,如弥漫的烟雾、炫目的炫光效果、爆炸场面等。
「在传统的影视制作中,特效的投入往往是一个巨大的数字,像一般爆炸特效镜头通常需要花几十万」,国内某资深特效总监说。用过 Vidu 后,他表示 Vidu 生成的爆炸生成效果已经非常接近影视制作的水准,这很令人吃惊。
生成速度业界最快
AI 视频工具还有个重要指标——推理速度。
目前,市面上的主流 AI 视频工具在生成 4 秒左右的视频片段时,用户通常需要等待 1 到 5 分钟,甚至更长。例如,Runway 最新推出的 Gen-3 工具需要 1 分钟来完成 5s 视频生成,而可灵需要 2-3 分钟。Vidu 将这一等待时间缩短至仅需 30 秒(可真实实测),速度比业内最快水平的 Gen-3 还要再快一倍。
Vidu 这次的更新版本带来了更丰富顺滑的创作体验,在视频生成领域,用户又多了一个选择。未来的视频模型竞争,只会越来越卷。
文章来源于“Founder Park”,作者“Founder Park”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则