很少有人喜欢他们用来完成工作的软件。这并不奇怪。无论是幻灯片制作工具、视频编辑器还是照片增强器,如今的工作工具都是几十年前构思的,这一点显而易见!即使是同类产品中的佼佼者,在实际工作中往往也会感到过于不灵活、不成熟,或者学习曲线陡峭、难以掌握(我们正在看着你,Adobe InDesign)。
生成式AI为创始人提供了一个完全重塑工作流程的机会,并将催生一批新的公司,它们不仅仅是AI增强现有业务的公司,而且是完全AI原生公司。这些公司将利用我们现有的技术从零开始,围绕人工智能独有的生成、编辑和合成功能打造新产品。
表面上看,我们认为AI将帮助用户更高效地完成现有工作。AI原生平台将 “提升 “用户与软件的互动水平,使他们能够将技能较低的任务交给人工智能助手,把时间花在更高层次的思考上。这不仅适用于传统的上班族,也适用于小企业主、自由职业者、创作者和艺术家–他们对时间的需求可以说更加复杂。
但是,AI还将帮助用户在技术和审美层面上释放全新的技能组合。我们已经从 Midjourney 和 ChatGPT 的代码解释器等产品中看到了这一点。现在,每个人都可以成为程序员、制作人、设计师或音乐家,从而缩小了创意与工艺之间的差距。每个人都可以成为新一代 “专业消费者”,获得专业级但又方便消费者使用的人工智能工作流程产品。
在这篇文章中,我们将重点介绍当今和未来最成功的生成式AI 原生工作流的特点,并对我们如何看待这些产品的发展提出假设。
生成式AI原生内容工作流产品会是什么样子?
所有采用 生成式 AI 原生工作流程的产品都有一个共同的重要特征:将最先进的模型转化为易于使用、高效的用户交互。
工作流工具用户通常并不关心产品背后的基础架构,他们关心的是产品如何帮助他们!虽然我们在生成式AI方面取得的技术飞跃令人惊叹,但成功的产品最重要的出发点仍然是对用户及其痛点的深刻理解。AI可以抽象出什么?哪些是需要审批的关键 “决策点”?以及哪些是最具影响力的点?
我们认为这类产品将具备几个主要特点:
- 解决 “空白页面”问题的生成工具。最早和最明显的消费类AI场景来自于将Prompt翻译成媒体输出,例如图像、视频和文本生成器。在专业消费者领域也是如此。这些工具可以帮助转化真正的 “空白页面”(如将Prompt转化为幻灯片),或将增量assets(如草图或大纲)转化为更充实的产品。
- 有些公司会通过专有模型来实现这一点,而其他公司则可能在幕后混合或拼接多种模型(开源、专有或通过 API)。Vizcom 的渲染工具就是一个例子。用户可以输入文本提示、草图或 3D 模型,并立即获得逼真的渲染效果,以便进一步迭代。
另一个例子是 Durable 的网站建设产品,该公司称迄今已使用该产品创建了 600 多万个网站。 用户输入公司名称、部门和地点,Durable 就会给出一个网站供用户定制。 随着 LLM 的功能越来越强大,我们希望看到像 Durable 这样的产品能从互联网和社交媒体的其他地方获取有关企业的真实信息–历史、团队、评论、徽标等–并通过一次生成生成更复杂的输出。
- 多模式(和多媒体!)组合。许多创意项目需要不止一种类型的内容。例如,您可能需要将图片与文字、音乐与视频或动画与配音结合起来。到目前为止,还没有一种模式可以生成所有这些类型的资产。这就为工作流程产品 创造了机会,用户可以在一个地方生成、完善和拼接不同类型的内容。
- HeyGen 公司的头像产品就是这样一种工具。 该公司将自己的头像和配音模型与 ElevenLabs 的文本到语音 API 相结合,创建出逼真的、会说话的视频头像(点击这里查看 Justine 的头像)。 HeyGen 的产品还提供模板和类似 Canva 的编辑器,可将头像放入演示文稿或视频中,创建幻灯片,或添加文本或其他资产,从而无需将头像放到 Powerpoint 或 Google 幻灯片中。
- 智能编辑器可实现多次迭代生成。几乎没有任何工作成果是 “一蹴而就 “的,尤其是人工智能,因为每一次生成都存在固有的随机性。很少有第一次运行就能得到你想要的东西。点击 “重新生成 “按钮和/或修改提示信息是整个过程中至关重要的一部分,但也是耗时和令人沮丧的一部分。
- 第一波AI生成产品不允许任何迭代:你创建了一个图像(或视频,或音乐),仅此而已。如果你重新执行同样的提示,你会得到完全不同的结果。现在,我们开始看到一些功能,能让用户在不完全从头开始的情况下,对已有的输出结果进行改进。Midjourney 的变化和缩放工具就是一个很好的例子。
- 在视频方面,Pika 也提供了类似的功能。用户可以使用已创建的片段修改特定区域,例如更改角色的性别或发色,添加或删除对象。用户还可以通过在现有视频周围的空白处涂色来扩展画布。
- 平台内完善。智能编辑的另一个关键(也是相关)要素是完善;最后 10%的打磨工作往往是创作出好作品还是伟大作品的分水岭。但要做到以下几点可能是一项挑战(1) 弄清哪些内容需要完善;(2) 在不需要使用其他产品的情况下进行这些完善。
- AI工作流产品可以帮助用户确定哪些地方可以改进,然后自动进行改进。就像苹果公司的照片 “自动润色 “功能一样,任何东西都可以 “自动润色”!最直观的解释就是放大,Krea 等平台就提供了这种功能。在一个界面中,用户可以生成图像或设计,然后对其进行增强,使其更接近最终产品。
ElevenLabs 的有声读物工作流是另一个很好的例子。 您可以使用该工具为特定的人物配音,为书中的章节进行旁白,然后通过调整句子或短语的停顿、稳定性或清晰度来完善输出。
- 可重复、可转换的输出。AI使内容具有独特的灵活性–每一段内容都是另一次迭代的潜在 “起点”。如果你曾在 Midjourney 或 ChatGPT 中复制和调整过别人生成的提示,那么你就参与了这一过程。
- 利用这种灵活性的平台可能会打造出更强大、更有粘性的产品。对于初始创作者来说,能够跨媒介转换作品具有巨大的价值,例如,将视频转换成博客文章,或将文字说明转换成如何制作动画视频。这是 Gamma 发布平台的核心功能。用户可以根据提示或上传的文件生成演示文稿、文档或网页,并根据需要切换格式。
从面向外部的角度来看,这些产品可以让用户公开自己的工作流程,供他人在此基础上迭代。这可能是一系列提示或模型组合,或者只是一个 “复制 “按钮,供技术水平较低的用户模仿输出或审美。
面向专业摄影师的编辑平台 Imagen AI 就是这方面的一个例子。该公司根据每位摄影师的个人风格训练一个模型,让他们能够更轻松地进行批量编辑。不过,用户也可以选择按照行业领先摄影师的风格进行编辑,这些摄影师已在该平台上提供了自己的资料。
未来产品将如何发展?
下一代专业消费类工具的出现还为时尚早。虽然现有工具生成核心资产的能力终于强大到足以添加有意义的工作流,但大多数产品仍然只专注于一种类型的内容,而且功能相当有限。以下是我们希望在未来几个月看到的几种产品:
1.结合多种内容模式的编辑工具。视频可能就是最好的例子。如今,用AI制作一部短片需要在 Pika 或 Runway 等产品中生成多个片段,然后将它们转移到 Capcut 或 Kapwing 等另一个平台上进行剪辑或混音(或添加从其他地方生成的声音!)。
如果您能在一个平台上完成这一过程的每一步,会怎样呢?我们预计,一些新兴的生成产品将能够增加更多的工作流程功能,并扩展到其他类型的内容生成–这可以通过训练自己的模型、利用开源模型或与其他厂商合作来实现。我们还可能看到一种新的独立AI原生编辑器出现,它能让用户 “插入 “不同的模型。
2.采用不同互动模式的产品。Prompt并不总是与人工智能产品交流的最有效方式。我们认为,你应该能够像与人类头脑风暴伙伴合作一样与生成工具合作,无论是通过语音、草图还是分享灵感照片。
我们尤其对语音这种方式感到兴奋,因为它可以让用户分享更复杂的想法(或者只是以文字无法实现的方式滔滔不绝地表达)。此类产品已经开始出现,Oasis、TalkNotes 和 AudioPen 都能将语音笔记转化为电子邮件、博客文章或推文。我们期待音频甚至视频作为输入源出现在更多的工作流产品中,改变用户完成工作的方式和时间。
3.将人类和AI生成的内容视为平等的产品。我们希望看到能让您同时处理AI和人类内容的工具。现在的大多数产品都只专注于其中之一。例如,它们能很好地增强真实照片的效果,但对AO图像却无能为力。或者,它们可以生成新的视频,但无法增强或重新调整 iPhone 中的剪辑。
在未来,我们预计大多数专业内容制作者将混合使用AI和人工生成的内容。他们使用的产品应该欢迎这两种类型的内容,甚至能让它们更容易地结合在一起。Runway 的编辑工具就是一个很好的例子。你可以从公司的生成模型中提取素材和图片,也可以上传真实资产,在同一时间线上使用。然后,您可以在这两种内容上使用该公司的 “魔术工具”,例如内画和绿屏。
我们在这里重点介绍的内容工作流产品,只是未来专业消费软件的一个重要组成部分。我们认为,在AI时代,生产力工具的重塑时机同样成熟。
原文:https://a16z.com/the-future-of-prosumer-the-rise-of-ai-native-workflows/
文章来自于微信公众号 “AI工程化”,作者 “ully”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则