周三,OpenAI发布了DALL-E 3,这是其 AI 生成图像模型的最新版本,其功能与ChatGPT完全集成。DALL-E 3 通过严格遵循复杂的描述并处理图像内文本生成(例如标签和标志)来渲染图像,这对早期模型提出了挑战。目前处于研究预览阶段,将于 10 月初向 ChatGPT Plus 和企业客户提供。
与其前身一样,DALLE-3 是一个文本到图像生成器,可以根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有发布有关 DALL-E 3 的技术细节,但 DALL-E 早期版本的核心 AI 模型接受了人类艺术家和摄影师创作的数百万张图像的训练,其中一些图像是从 Shutterstock 等股票网站获得许可的。DALL-E 3 很可能遵循相同的公式,但采用了新的训练技术和更多的计算训练时间。
从 OpenAI 在其宣传博客上提供的示例来看,DALL-E 3 似乎是一个比任何其他可用的AI生成图像模型功能都要强大。虽然 OpenAI 的示例是被官方精心挑选的,但它们似乎忠实地遵循提示指令,令人信服地以最小的变形渲染对象。OpenAI 表示,与DALL-E 2相比,DALL-E 3 更有效地完善了手等小细节,默认创建引人入胜的图像,“无需黑客或者提示词工程”。
相比之下,虽然另一家目前市场著名的人工智能图像生成模型Midjourney,可以很好地呈现照片级真实感细节,但它仍然需要大量反直觉的修改提示,才能获得对图像输出的任何控制。
DALL-E 3 似乎还可以以其前身无法做到的方式处理图像中的文本(一些竞争模型,如Stable Diffusion XL和DeepFloyd在这方面做得越来越好)。例如,包含以下文字的提示:“牛油果坐在治疗师的椅子上,说‘我感觉内心很空虚’,中心有一个坑大小的洞”,完美地创建了一个卡通牛油果,并完美地引用了角色名言封装在一个对话气泡中。
值得注意的是,OpenAI 表示,DALL-E 3 是在 ChatGPT 上“原生构建”的,并将作为 ChatGPT Plus 的集成功能出现,允许以 AI 助手作为头脑风暴合作伙伴的方式对图像进行对话式改进。这也意味着 ChatGPT 将能够根据当前对话的上下文生成图像,这可能会带来新颖的新功能。微软的 Bing Chat AI 助手也是基于 OpenAI 的技术构建的,自 3 月份以来已经能够在对话中生成图像。
引发风暴的茶壶
DALL-E 3 AI 生成的图像:“暴风雨天放在窗台上的咖啡杯的 3D 渲染。窗外的暴风雨反映在咖啡中,里面可以看到微型闪电和湍流杯子。房间里光线昏暗,增添了戏剧性的气氛。”
DALL-E 的原始版本于 2021 年 1 月出现,OpenAI 于 2022 年 4 月推出了其功能更加强大的续集,开启了人工智能生成图像的新时代,其惊人的爆炸性吸引了最初的内测测试人员。DALL-E 模型使用一种称为潜在扩散的技术,将噪声细化为图像,它可以根据从数据集训练中获得的知识和提示的指导来“识别”图像。去年八月,同样的技术使得开放重量模型稳定扩散(Stable Diffusion)的出现。
由于 DALL-E 在训练中通过抓取大量人类制作的艺术品数据集来学习图像概念,人工智能图像生成技术自去年主流推出以来一直备受争议。该技术引发了艺术家的抗议,他们担心该技术会取代他们或不道德地复制他们的风格,围绕未经版权所有者协商而将刮取图像用作训练数据的版权侵权诉讼,以及美国版权局和美国版权局对版权的新裁决地方法院法官。
作为对这些争议的认可,OpenAI 表示 DALL-E 3 的设计目的是拒绝要求提供在世艺术家风格的图像的请求。OpenAI 还提供了一种形式,创作者可以选择不使用他们的图像来训练未来的模型。这些措施似乎不太可能满足艺术家的要求,他们通常认为人工智能训练应该只是选择加入,而不是默认包含在图像数据集中。
DALL-E 2(左)和 DALL-E 3(右)生成的“一幅篮球运动员扣篮的富有表现力的油画,描绘为星云爆炸”的比较。
目前,美国的版权政策规定,纯粹由人工智能生成的艺术品不能获得版权保护,因此从技术上讲,任何使用 DALL-E 3 创建的图像都将属于公共领域。虽然 OpenAI 没有明确承认这一点,但它确实表示,”你用 DALL-E 3 创建的图像归你使用,你不需要我们的许可就可以转载、出售或销售它们”。与去年相比,这是一个明显的变化。去年,OpenAI 限制使用《DALL-E 2》的图像,而当时的许可证规定,OpenAI “拥有所有DALL-E 2的所有权”。
关于安全性,OpenAI 表示,与 DALL-E 2 一样,它在 DALL-E 3 中实施了关键字和图像检测过滤器,以限制其产生暴力、性或仇恨内容的能力。该系统还被编程为拒绝按姓名生成公众人物图像的请求——这曾给竞争对手的人工智能图像生成器 Midjourney 带来麻烦,因为它生成了唐纳德-特朗普(Donald Trump)的假逮捕图像。
OpenAI表示,它已与被称为 “红队 “的专家合作,以识别和降低潜在风险,如有害偏见或生成宣传和错误信息。OpenAI没有透露其工具是否有可能通过令人信服的捏造篡改历史记录,不过它表示正在尝试使用一种 “出处分类器 “工具,帮助识别图片是否由《DALL-E 3》生成。
目前,我们还无法使用 DALL-E 3 进行测试,但 OpenAI 表示,人工智能图像生成器目前正在进行封闭测试。它计划 “在 10 月份通过 API 向 ChatGPT Plus 和企业客户提供,并在今年秋天晚些时候在实验室提供”。
文章转载自”arstechnica“
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则