不拼长度拼速度，LumaAI的视频生成模型如何差异化？

2024-08-30 阅读 63 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

120秒生成120帧，不卷长度卷速度的视频生成模型

这一轮AI技术的崛起是大语言模型和视觉大模型共同推动的。一部分人认为语言是通往AGI的必经之路，更多的人则认为视觉是关键。视觉模型可用于各种生成式人工智能应用——包括逼真的视频生成、游戏、交互式3D世界构建和机器人技术。

LumaAI显然是后一派，从3D大模型到视频大模型，他们跳过了语言模型和图片模型，为视觉模型增加了空间和时间的元素，更加接近真实世界。

LumaAI认为多模态是智能的关键，它们将打造最终与真实世界互动以实现改变的AI系统。

LumaAI由Amit Jain（CEO）和Alex Yu（CTO）共同创立，Amit Jain曾在苹果公司工作，负责了Vision Pro的多媒体体验，在3D计算机视觉、相机技术、机器学习等方面有丰富的实践经验。Alex Yu曾在Adobe公司工作，并在伯克利的人工智能研究实验室与Angjoo Kanazawa教授一起研究神经辐射场（NeRFs），他曾在CVPR和ICCV等AI领域顶会发表过多篇论文。

在B轮融资之后，LumaAI的领导团队引入了几位顶尖人才，来自NVIDIA的Jiaming Song，担任首席科学家，领导基础模型研究团队，Jiaming Song曾领导扩散模型（如DDIM）的研究工作；来自伯克利的Matthew Tancik领导应用研究团队，他参与创造了神经辐射场（Neural Radiance Fields），这是3D神经渲染领域最具影响力的新方法之一；苹果设计工作室的Tuhin Kumar则领导设计团队。

A16z合伙人Anirney Midha表示：“生成式AI的巨大机遇在于让数十亿人能够创造出以前只有少数人敢于梦想的事物。Luma凭借世界级的多模态研究和产品设计能力，正引领这一浪潮。Luma的团队汇聚了计算机视觉、图形学和深度学习领域最杰出的科学家，他们已经推出了被数百万人使用的产品。我们非常高兴能与Amit、Alex和他们的团队合作。”

3D生成模型Genie

3D领域的第一个重大突破出现在2022年，Get3D、PointE和DreamFusion等研究论文发表。这引发了该领域的研究热潮，仅2023年9月就有超过20篇相关论文提交到ICLR。研究人员终于攻克了生成过程中的一些主要挑战，如“双面问题”（Janus problem）。

但是很多方法的速度很慢，生成一个内容可能需要1个小时。所以能够在保证视觉质量的同时加快生成质量就变得很有意义。Luma AI构建了快速、高质量且可部署的3D生成基础模型Genie，它能通过自然语言提示在10秒内创造出任何3D对象。Genie基于大量3D形状、纹理和场景数据集的训练，它在网页端、Luma iOS应用程序以及Discord社区中提供。目前已经有百万量级用户。

不拼长度拼速度，LumaAI的视频生成模型如何差异化？

Luma AI的联合创始人兼首席执行官Amit Jain表示：“Luma的核心理念是，所有视觉生成模型都需要在3D环境中进行推理和工作，以创造看起来合理且实用的视频、场景和世界。”

在3D领域，Luma AI并不是唯一玩家，创业公司例如Hypothetic、Auctoria AI和Kaedim都推出过类似功能，Autodesk和英伟达也分别推出了ClipForge（可根据文本描述生成3D模型）和Get3D（将2D图像转换为3D模型）等应用。

LumaAI的联合创始人Alex Yu表示，LumaAI的3D模型优势在于高保真度，因为一些3D图像生成模型是在二维图像上训练的，它们生成的内容经常‘扭曲空间、身体和动作’，而LumaAI生成的内容则连贯可用，并具有高保真度。

视频生成模型Dream Machine

Luma AI的视频生成模型Dream Machine采用了与3D模型Genie类似的技术和产品策略，卷速度，卷可控性，开放。

不拼长度拼速度，LumaAI的视频生成模型如何差异化？

Dream Machine与AWS合作，使用它们的H100搭建成的超算训练。与一些视频模型基于图片训练不同，Dream Machine是使用Transformer直接基于视频数据训练，这让它的模型更加“理解”人物、动物和物体与现实世界的互动方式，生成的视频内容能够忠实呈现特定物体、人物、动作和环境，讲述连贯故事，并始终保持流畅的动作。

此外，Dream Machine不像一些模型去卷长时长，15秒甚至1分钟，现阶段只生成5-10秒钟的视频片段，但是它能够在120秒的时间内生成120帧画面。对于创作者来说，这加快了它们迭代创意的速度。

在初版Dream Machine发布2个月后，Luma AI发布了Dream Machine 1.5，新模型的提升在于更逼真的效果、更出色的动作追踪能力，还有一个重大升级在于文字方面的能力，一方面它的提示遵循能力增强，另一方面它支持了多语言（例如阿拉伯语），而且能生成更准确的带有文字的画面。这方面的突破，有助于设计人员设计动态标题动画标志和演示文稿的动态屏幕图形。

尽管OpenAI的Sora开启了今年的视觉模型潮，但它仍然在封闭测试阶段，而且OpenAI应该会把它作为一个闭源模型来运行。Luma AI则已经将Dream Machine的使用权限广泛开放，这也让它的用户数量飞速提升，根据similarweb的统计，它的视频生成器网站（lumalabs.ai）流量在今年6-7月份增长了33.4%，总流量达到2250万次，而一些竞争对手的流量在同期则只有1210万（veed.io）和240万次访问（synthesia.io）。同一时期，Google的Gemini流量环比下降14.3%，Microsoft CoPilot的独立版本环比下降13.4%，这更说明了它的受欢迎程度。

不拼长度拼速度，LumaAI的视频生成模型如何差异化？

开放策略不仅带来了流量增长，也能让Luma AI收集更多的真实用户反馈。相比之下，梦想机器现已向所有愿意尝试的用户开放。在产品策略上，Luma AI不仅有现在面向ToC的网站和App，未来还将推出API和插件，与Adobe等创意软件工具集成。

视觉模型创业公司的差异化竞争策略有哪些？

在大模型和视觉模型领域创业，初创公司如何与大公司竞争？肯定需要一些差异化的策略，具体到Luma AI，它在三个方面实现了差异化。

在技术上，它采用Transformer架构直接使用视频数据进行训练，提升了视频生成内容的真实性与可控性。

在产品上，它不追求视频生成的长度，追求视频生成的速度，帮助客户提升工作效率。

在模型运营上，它采用开放式的策略，降低模型使用成本，扩大用户量，同时又积极拥抱大公司的生态，借机进入企业市场。

挣钱难是目前AI产品普遍遇到的问题，这个问题拆分开有两个层面。

第一是成本问题，无论是训练还是推理，目前的算力成本都还很高，让AI创业公司无法以较低成本扩大规模。这一方面需要等待芯片技术的进步，目前这个成本已经在快速下降中。

第二是收入来源问题。光是以API的形式卖模型能力，在现在模型越来越卷的情况下很难挣钱，因为很多大厂已经免费提供模型或者把模型Token的价格压得很低。创业公司的出路还是在应用方面，对于视觉模型公司，可以围绕电商，设计，影视和游戏等行业找具体的突破方向。

厉害的创业团队当然可以向AGI进发（无论选择哪条路线），但在实现AGI的道路上，要想公司形成正循环，还是要先瞄准一些“肥水田”做出有价值的产品。

文章来源于“阿尔法公社”

昆仑万维豪赌All in AGI

关联网址

关联标签

#AI #AI技术 #工作效率 #提升工作效率

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

不拼长度拼速度，LumaAI的视频生成模型如何差异化？

120秒生成120帧，不卷长度卷速度的视频生成模型

3D生成模型Genie

视频生成模型Dream Machine

视觉模型创业公司的差异化竞争策略有哪些？

昆仑万维豪赌All in AGI

新一轮工会谈判开始了：与好莱坞特效美术聊聊他们和AI新工具的博弈

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

不拼长度拼速度，LumaAI的视频生成模型如何差异化？

120秒生成120帧，不卷长度卷速度的视频生成模型

3D生成模型Genie

视频生成模型Dream Machine

视觉模型创业公司的差异化竞争策略有哪些？

昆仑万维豪赌All in AGI

新一轮工会谈判开始了：与好莱坞特效美术聊聊他们和AI新工具的博弈

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿