独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

2024-06-10 阅读 36 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

Pika的路径：Smart、高效、Not only 「text」based

机器之心：如果说你们要实现更好的效果，会意味着说就是要去做更大的Scaling吗？

Pika：Scaling是有上限的。我们不可能一下子从几百张卡scale到几万张卡，这个很不现实。另外，GPU本身在内存等硬件方面也都是有上限的。所以如果说大家scale到一定程度了，是无法一直scale下去的，接下来需要看大家其他方面的技术实力。

如果我们参考一下OpenAI和Anthropic这两家公司，我们会发现，Open AI肯定是资源最多、数据最多的，但是这并不妨碍别人用更加smart的方法，用稍微少一点的数据达到更好的效果。

机器之心：在sora出现之后，你们有去买更多的卡吗？

Pika：我们其实有非常多的卡，到目前为止，我们的卡也是非常充足的。

机器之心：现在你们想要做的更好的话，采取的方法是什么？

Pika：我们内部有一套自己的方法，非常重视研究和创新，我们的文化是重视大家的智慧，然后要把东西做到最Smart。所以我们的核心点是要用非常前沿和可靠的算法去打造我们的模型，让它能够做到，第一非常Scalable、第二可以以小胜大，用更少一点的资源，得到更好的效果。

机器之心：具体在视频生成上，你们会怎么做，实现以小胜大，有明确的技术方法了吗？

Pika：我们有明确的技术方法去实现它，我可以分享一下high level的想法：

因为视频是一种高维的数据，比如说对于每秒24帧的1080p视频，它的分辨率是1920×1080，这个数据每秒的维度是：

1920×1080×3×24 = 155520000。

这个维度非常大，对于AI来说处理起来非常困难。如果说再乘上时间，60秒，就更大了。所以这个dimension是非常高的。

但是你知道，在AI中大家都知道的，curse of dimensionality（维度诅咒，指随着数据维度的增加，数据变得越来越稀疏，从而导致模型的训练和预测变得更加困难），就是说你的维度越高，你需要的数据量就越大。

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

那随着1080p视频时间的增加，所需要的数据量就会指数增长，因为视频中的每一帧都包括了大量的信息，而随着时间的推移，帧的数量也会增加，从而导致所需数据量的指数级别增加。

然而，在现实中，这是不切实际的。因为一个高清视频，你视频越长，它（存在）的数量就越少，所以这是一个非常有趣的dilemma（困境）。

但是好处在于，实际上视频有点像一个“low dimensional manifold”（低维流形，一种数学概念，指维度较低的特殊空间结构），嵌入在高维空间中，也就是说它的每一个维度实际上是相互关联的。

比如，我们想生成一个人在路上走路了10秒的视频。实际上，我们只需要知道第一个帧的信息，比如这个人走路的背景、他的穿着等细节，后面的帧你就不再需要完整的画面，你可能只需要一些很小的信息，比如这个人走路的姿势、或者说是背景当中汽车在移动。

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

这个是我们这边的一个insight，就是说，有一种成功的算法，可以让这个高维数据投影到一个低维空间。用这个方法，首先你可以绕过the curse of dimensionality，其次，可以让你生成视频的效果变得更好。以及，由于你的维度变低了，所以你训练模型的效率和成本就大大降低了。

这个是我们花了很多精力的一种高效架构和数据压缩方法。这种算法能够去掉90%的冗余信息，进而帮助降低数据的维度。比如你原本有几百页的文档，经过处理后，现在需要处理的数据只有几十万，这样就大大节省了算力。这是一种更加紧凑的表达方式，因为维度越大需要的参数越多，难度就更大，而我们使用这个方法所需要的参数应该是比较低的，所以不管是从数据效率、训练效率、推理效率上，都实现了更加高效。

机器之心：这个算法的底层思路可能是怎样的？

Pika：本质上，我们是希望让我们的模型能够像人类一样思考。比如说人看这个视频，可能只需要很少的信息，第一比如只需要第一帧中的这个人的背景、周围环境、穿着等各方面细节。然后第二，可能需要一个动作的引导，比如这个人是以这样的姿态、这样的速度在走路。

然后我们这边发现的一个情况就是，实际上在应用场景下，虽然市场上有很多Text to video（文生视频），但真正运用起来没人在乎是不是「Text」to video。因为核心是大家更希望能够生成一个能够可控的视频。

比如有人说想生成一个人以这样的姿势走路，这其实很难用语言来描述，但如果给他提供一个引导，比如一个参考视频，说这个人是这样的姿势走路。或者说，希望这人穿这样的衣服，也不知道怎么描述，可能那就给他提供第一帧。

总之就是我们想建立一个模型，让它能够像人类一样思考，我们也想超越文本的交互形式，让人类可以很好地去控制它。

当我们能够把那些motion prior（运动先验，表示对常见运动模式或行为的先验理解，这些先验信息可以帮助模型更好地理解和预测视频中的运动）、image prior（图像先验）嵌入到我们的模型里，那么自然而然，这个模型可以更好地理解人类，同时会学到更好的连续表示。

机器之心：你的意思是，可能更高效的视频生成指令不一定是「text」这种形式？

Pika：是的。因为我们发现，用户其实并不在乎是不是「text」to video这种形式。另外我们也发现，text based会让我们的模型受到更多约束。所以我们打算用来自不同形式的Prior（先验），比如运动、风格，去帮助用户表达，这也体现了我们比较以用户为中心的理念。

机器之心：我看你们已经上线了「style」「lipstick」这些组件，之后会拓展更多类似这样的组件是吗？

Pika：对，这样也能够反过来使我们的模型更能像人类一样思考。其实主要就是因为这些动作或者说信息，它是很难用语言去描述的，像我们该怎么去告诉AI说我希望它的嘴唇是怎么运动的呢？很难。所以我们就采用这种Prior的形式，它是有效的。之后我们还会有更多的这方面的更新。

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

机器之心：你们之前提到过，产品的最终目标是希望做一个interface for creator，听起来这些组件像是对这个界面的完善。

Pika：我们把interface理解成人类和机器交流的语言，人类和机器不能直接交流，而经过训练后的interface可以让人类向机器传达想法。这个界面可以让系统串联起来，为目标服务，我们的产品会解释模型，模型促进产品实现。我们不会局限于一种表达方式，如果用户需要一种应用，我们就会去调整模型，调整表达方式，然后推荐给用户。我们跟自己的用户走的很近，像今天上线的「style」「lipstick」也都是在充分吸收了用户的建议下上线的。

视频生成行业仍在70分阶段

可用性还没有得到本质解决

机器之心：开年以来大家一直在说，2024年是视频生成的爆发之年。你们认同吗？

Pika：从关注度来讲，是认同的。事实上在sora发布之后，确实得到了很多的关注。所以我觉得OpenAI的产品发布让更多的人认识到了这样一个领域的存在，其实也是一件非常好的事情，所以行业知名度上确实是爆发的。

不过从技术上来讲，是否是今年爆发，很难预测。各家都在做努力，我们还是相信量变会引起质变。

从应用上来看，我认为现在有点像LLM领域ChatGPT出现之前的爆火，比如GPT-3出现的时候，大家也是很兴奋的，但是它没有一个很好的落地场景，现在的视频生成也在这个阶段，可能还是需要在模型迭代之后，被更多人用起来，大家实现了观念上的转变，这个可能是一个真正的爆发。

就像我们已经很习惯掏出手机，用一些应用来修图，未来几年，我们可以相信，生成和编辑视频也是跟现在用手机P图一样简单。

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

我相信就是在未来的一个时刻，就肯定视频这样的一个模态，是会有它非常重要的使用场景，我相信它是可以实现一个真正的爆发，但可能未必是今年会有一个非常确定的一个时间线。

机器之心：如果说，评价视频生成行业技术阶段，从不成熟到成熟对应0-100分，你认为行业现在处于几分？

Pika：我认为是70分左右。拿Sora来讲，现在它更多是一个概念验证产品，并没有真正解决问题。

我们从别人分享的使用过程里看到，比如当时有个关于气球的生成视频，它的作者写了一篇很长的帖子，讲它的历史表现并不是特别好，可能要试几百个视频，才能实现生成一个满意的视频，而且如果直接生成高清视频，分辨率还是非常低，所以他们可能是生成一个低清的，然后再用那些人工的超分辨率方法去做超分辨率处理后放上去。

另外它的效率也非常低，需要很长时间，比如 12 分钟才能做出一个成品。这个距离真正能够毫无压力商用，还是有一定差距的，所以我认为整个行业应该差不多在 60 到 70 分左右的范围。

机器之心：在6、70分的阶段，要迈向100分，可能中间比较重要的待解决问题是什么？

Pika：第一是准确性，怎么可以把用户的意图准确地表达出来；第二是可控性，怎么按照用户的意图对视频进行控制，你可以看到现在即使在图片领域，也没有做的很好；其次就是效率的问题，怎样迅速地去生成视频。

机器之心：那在这几个方面你们会横向去对比其他公司吗？标准可能是怎样的？

Pika：因为我的感觉就是这个行业可能就像我说的，大家都差不多六七十分。可能现在有些人稍微领先有一两分。但大家都没有本质地解决这些问题。

所以可能现在的这个对比可能不是特别的有价值。最核心的这个可用性方面，以及刚刚提到这几个点都还没有得到本质的解决。现在去谈一些很细致的对比，可能就没有特别大的意义。

尤其是从用户的层面，就可能从技术的层面，你可以提出各种各样的指标来评价一个模型的好坏。但是我们想我们公司想做的不仅仅只是停留在技术层面的。

我们还是希望这样AI是真的能够为为Creator所用，希望用户觉得这是一个可以使用的产品。所以这个角度看，我认为，目前阶段可能还是在内部把模型和产品打磨地更加完善，才是第一要义。

机器之心：像这些问题，会因为scaling而逐步解决吗？

Pika：因为像可控性这个点，以后不会仅仅停留在文本控制生成视频的层面，会需要更加精细的控制。所以这也不是只做Scale就可以解决的。就像Sora其实也有可控性的问题。

所以这个可能不能仅仅从AGI的角度去看，而是要从真正的产品角度去想。

所以你可以看到，我们新发布的很多功能，基本都是从实际用例出发，而不是仅仅从模型进展。

机器之心：Pika在这几个问题上的思路和优势是什么？

Pika：我们的团队非常有优势，团队很多成员有对应的专业背景，他们的很多工作也是当前这个领域最核心的一些相关工作之一。具体到在可控性方面也是，我们有一部分成员之前的就是专业做这方面研究的，他们的论文也是这个领域的。基础模型上，我们既有资深的人，也有新生代有想法的人。所以这些方面的问题我们从人才上看，是非常有信心去攻克的。

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

至于可控性的具体思路，我们之前谈到的，去丰富和拓展更多元的交互方式，其实就是模拟人类思考的过程，这种方法也是增强可控性的有效手段。至于更细节的思路，可能今年年底之前，我们会有一个产品出来，在用户交互界面上有一个比较大的升级，到那个时候我们可以全部公布。

将更aggressive做视频大模型

机器之心：去年年底的时候你们立过一个flag说，希望今年的技术能够达到一个商业上的标准，这个标准是什么？进度如何？

Pika：我觉得这个领域很显然还有很多东西是没有定义的。就是说，未来AI到底是怎么样？用户到底该怎么跟AI模型做交互，交互方式其实都还是待定义的。我们希望自己可以去参与定义这个商业板块，希望我们能在今年取得进展。

这个标准我认为可能也不仅仅是技术上的标准，不仅仅是说这个模型生成的分辨率有多高或者说效果有多好，最终还是要回到用户的可用性有多强。

机器之心：对于产品力，你们怎么构建它？

Pika：我们是想做最好的模型，但是不仅仅是做视频模型，而是想做最有用的视频模型，这个就是我们所认为的产品力。

我们不仅是要做一个技术载体，比如技术极客之类的会感兴趣，更重要的是做一个有用的视频模型，不一定是技术上最强势，但是给到创作者，你能够去编辑视频、定义场景和人物，不仅能用文字、还能用声音、视频、图片去交互。然后让这个用户能够真正意义上去控制这个视频的生成和编辑。

机器之心：那现阶段来看的话，像模型能力的提升和产品力的提升，对你们来说这两件事哪件是更重要的？

Pika：模型是产品的基石，我们对界面的定义也是需要基于一个成功的模型，所以我觉得可能模型研发目前是稍微更重要的一点的。

机器之心：在模型层面的提升上，哪些性能是最关注的？

Pika：还是回到那三点，准确性、可控性以及效率。

机器之心：时长会是一个重点吗？

Pika：会是一个重点，在我们下一个新版本中，我们会做提升，但提升多少，我们现在还无法公布。

机器之心：我看到你们说，自己会更aggressive地去做模型层面的研究和工程，这具体会表现在？

Pika：第一就是加大力度的招人，另外就是现在的团队会往这方面倾注更多的精力。

机器之心：目前商业化上的探索情况是怎样的？

Pika：我们现在是已经在赚钱的，主要来自C端的订阅费用，在B端，我们会跟一些演唱会或者企业在创意上做合作，也会对外提供API，目前都在探索的路上。

文章来源于“机器之心”，作者“姜菁玲”

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

Pika的路径：Smart、高效、Not only 「text」based

视频生成行业仍在70分阶段

可用性还没有得到本质解决

将更aggressive做视频大模型

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024

Karpathy最新四小时视频教程：从零复现GPT-2，通宵运行即搞定

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

Pika的路径：Smart、高效、Not only 「text」based

视频生成行业仍在70分阶段

可用性还没有得到本质解决

将更aggressive做视频大模型

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024

Karpathy最新四小时视频教程：从零复现GPT-2，通宵运行即搞定

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿