Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

2024-08-08 阅读 38 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

结构新，大尺寸的开源视觉模型

Black Forest Labs由杰出AI研究人员和工程师组成，在学术界、工业界和开源世界都拥有良好的积累。他们此前创建了VQGAN和潜在扩散（Latent Diffusion）模型，Stable Diffusion图像和视频生成模型（如Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers），以及用于超快实时图像合成的对抗性扩散蒸馏（Adversarial Diffusion Distillation）。

它的核心领导团队由Robin Rombach、Patrick Esser和Andreas Blattmann组成，尤其Robin Rombach，他是Stable Diffusion的两位主要创建者之一。可以说，他们在潜在扩散模型上的工作为Stable Diffusion奠定了基础，并影响了如DALL-E 2和3，以及Sora等模型的核心架构元素。

Black Forest Labs表示，他们的核心信念是，广泛可访问的高性能模型不仅能在研究社区和学术界内促进创新和合作，还能增加透明度，这对信任和广泛采用至关重要。

FLUX.1模型家族

Black Forest Labs最新发布的是FLUX.1文生图模型家族，这一系列模型均采用DiT（Diiffusion Transformer）混合架构，尺寸为12B（在视觉模型中属于超大尺寸），它还采用了构建流匹配（flow matching）方法等新型扩散模型训练方法，以及引入旋转位置嵌入和并行注意力层来提高模型性能和硬件效率。

这一系列新模型在图像细节、提示遵循、风格多样性和场景复杂性等方面取得了良好的效果。例如，它可以生成高分辨率图像，人体生成更具有解剖学合理性，而且因为Transformer的加入，在复杂指令遵循上表现更优。

FLUX.1共有3个版本，FLUX.1 [pro]，FLUX.1 [dev]和FLUX.1 [schnell]。

FLUX.1 [pro]是性能最佳的版本，具有一流的提示跟随、视觉质量、图像细节和输出多样性。它可以通过Black Forest Labs的API以及Replicate和fal.ai等模型云平台获得。

FLUX.1 [dev]是一个开源权重的指导蒸馏模型，它是从FLUX.1 [pro]蒸馏而来，FLUX.1 [dev]在保持类似质量和提示遵循能力的同时，比同等大小的标准模型更高效。FLUX.1 [dev]的权重可在HuggingFace上获取，但它不是一个可以商用的开源模型。

FLUX.1 [schnell] 专为本地开发和个人使用量身定制，它采用的是宽松的Apache2.0开源协议，推理代码可在GitHub和HuggingFace的Diffusers中找到。这个模型在推理速度上进行了优化。

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

Black Forest Labs将FLUX.1系列模型与Midjourney v6.0、DALL·E 3（HD）和SD3-Ultra等主流视觉模型进行了对比，无论是竞技场ELO分数，还是对模型尺寸，生成质量，指令遵循等指标的平衡，它都达到了SOTA。它开源的两个模型，也超越了Stable Diifusion 3系列的相应类型模型。

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

今年，其实视频模型的流行程度，超过了文生图，Black Forest Labs也预告了其视频模型，这个视频模型将以FLUX.1为基础，实现高精度，高清晰度和高速度。

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

a16z在一篇博文中表示：“视觉AI正面临供应链问题。尽管图像和视频生成的基础模型正在迅速发展，但这些基础模型只是AI价值链的起点。要发挥这些模型的最大潜力，需要全球最优秀的产品和工程团队来打造令人愉悦、简单且量身定制的工作流程和终端用户体验——这便是价值链的终点——而无需成为生成建模研究的专家。

因此，我们非常高兴地宣布对Black Forest Labs（BFL）的种子投资。这个团队致力于为开发者构建世界上最好的开源视觉模型。BFL专注于解决这一需求，只关注价值链的起点部分，从而让开发者和产品工程师能够专注于终点部分。”

良好模型能力+强商业化能力，是视觉大模型创业的康庄大道

为什么会有视觉模型的井喷？一方面，这是需求导致的，视觉模态对于人们的刺激，显然会比单纯的文字更大，另一方面，这和AI模型的本质，以及实现AGI的道路有关。

Transformer模型的本质是预测下一个Token，AI模型的本质是对数据的“压缩”，那么视觉模型预测的就是下一个视觉影像，压缩的是视觉数据，这比对文字的压缩更接近真实世界，一些学者也认为这离实现AGI更近。

而还有顶尖的AI学者认为，视频还不够，模型的数据应该是三维的，需要引入“空间”这个属性。例如，美国国家工程院院士李飞飞对国内媒体表示，实现AGI的关键一环是“空间智能”，而非二维智能。只有通过空间智能，才能看到世界、感知世界、理解世界并让机器人做事，从而形成良性闭环。

从学术世界回到AI视觉模型的创业和应用。目前的格局与文本大模型类似，分为模型派和应用派。

模型派以OpenAI为例，它的杀手产品仍然只有ChatGPT，DALL·E 3是作为一个功能嵌入应用中，它并没有为视觉模型开发专门的应用，也没有针对某个具体的场景进行针对性优化。

应用派，在ToC方向比较典型的还是MidJourney，它已经有自己的完善应用生态，也有自己不断迭代中的模型。在ToB方向，大厂的Adobe将AI视觉模型的能力融入到它的视觉工具套件Firefly中，也有synthesia这样专注于用AI视觉模型为企业生成类真人avatar的创业公司。

在国内，有快手可灵，智谱CogVideoX（开源）这些视频模型，而且在Sora还是“期货”的时候，它们已经逐步开放了，其效果也具有较强的竞争力。

还有一类创业公司类型是模型+应用，在国内比较典型的例子是Hidream.ai。它具有自研的DiT架构大尺寸视觉模型，不仅有针对专业创作者的文生图和文生视频应用，在电商、视频彩铃等垂直场景也有专用工具。

这一类创业公司是具有学术/商业/大厂背景的顶尖创业者，在AI创业时应该选择的方向。

也许你已经注意到，Black Forest Labs的FLUX.1系列模型中，有两个模型都是开源的。事实上，开源模型对于AI的开发者生态及创业和应用生态是相当重要的，因为一方面，开源模型使开发者社区能够探索更广泛的应用和用例，也允许外部研究人员分析模型中的潜在偏见或问题，帮助模型建立了信任并提高了可靠性。

另外一方面，开源模型对于创业公司和小型企业使用AI特别重要，它帮助这些企业降低了模型训练负担，进而促进了小团队在应用方面的创新性。要知道MidJourney获得1亿美金收入时，整个团队只有十几人。

本文来自微信公众号“阿尔法公社”（ID：alphastartups），作者：发现非凡创业者的

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

OpenAI，雪崩开始了吗？

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

结构新，大尺寸的开源视觉模型

良好模型能力+强商业化能力，是视觉大模型创业的康庄大道

OpenAI，雪崩开始了吗？

如果 AI 必将改写网文行业，请给个写法

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

结构新，大尺寸的开源视觉模型

良好模型能力+强商业化能力，是视觉大模型创业的康庄大道

OpenAI，雪崩开始了吗？

如果 AI 必将改写网文行业，请给个写法

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿