OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

2024-05-14 阅读 30 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

全能模型 GPT-4o

首先介绍的是 GPT-4o，o 代表 Omnimodel（全能模型）。

第一次，OpenAI 在一个模型中集成了所有模态，大幅提升了大模型的实用性。

OpenAI CTO Muri Murati 表示，GPT-4o 提供了「GPT-4 水准」的智能，但在 GPT-4 的基础上改进了文本、视觉和音频方面的能力，将在未来几周内「迭代式」地在公司产品中推出。

「GPT-4o 的理由横跨语音、文本和视觉，」Muri Murati 说道：「我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与 GPT 的协作。」

GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，但在非英语文本上的性能显著提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

它最快可以在 232 毫秒的时间内响应音频输入，平均响应时长 320 毫秒，与人类相似。在 GPT-4o 发布之前，体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

这种语音响应模式是由三个独立模型组成的 pipeline：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息，例如模型无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而在 GPT-4o 上，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

「从技术角度来看，OpenAI 已经找到了一种方法，可以将音频直接映射到音频作为一级模态，并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究，但总体来说是一个数据和系统优化问题（大多数事情都是如此）。」英伟达科学家 Jim Fan 如此评论道。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

GPT-4o 可以跨文本、音频和视频进行实时推理，这是向更自然的人机交互（甚至是人 – 机器 – 机器交互）迈出的重要一步。

OpenAI 总裁 Greg Brockman 也在线「整活」，不仅让两个 GPT-4o 实时对话，还让它们即兴创作了一首歌曲，虽然旋律有点「感人」，但歌词涵盖房间的装饰风格、人物穿着特点以及期间发生的小插曲等。

此外，GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多，此前很多不可能的任务都变得「易如反掌」。

比如，你可以让它帮忙把 OpenAI 的 logo 印到杯垫上：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

经过这段时间的技术攻关，OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。

同时，GPT-4o 还拥有 3D 视觉内容生成的能力，能够从 6 个生成的图像进行 3D 重建：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

这是一首诗，GPT-4o 可以将其排版为手写样式：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

更复杂的排版样式也能搞定：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

与 GPT-4o 合作，你只需要输入几段文字，就能得到一组连续的漫画分镜：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

而下面这些玩法，应该会让很多设计师有点惊讶：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

这是一张由两张生活照演变而来的风格化海报：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

还有一些小众的功能，比如「文本转艺术字」：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

GPT-4o 性能评估结果

OpenAI 技术团队成员在 X 上表示，之前在 LMSYS Chatbot Arena 上引起广泛热议的神秘模型「im-also-a-good-gpt2-chatbot」就是 GPT-4o 的一个版本。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

在比较困难的 prompt 集上 —— 特别是编码方面：GPT-4o 相比于 OpenAI 之前的最佳模型，性能提升幅度尤其显著。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

具体来说，在多项基准测试中，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上实现了新高。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

未来，模型能力的提升将实现更自然、实时的语音对话，并能够通过实时视频与 ChatGPT 进行对话。例如，用户可以向 ChatGPT 展示一场现场体育比赛，并要求它解释规则。

ChatGPT 用户将免费获得更多高级功能

每周都有超过一亿人使用 ChatGPT，OpenAI 表示 GPT-4o 的文本和图像功能今天开始免费在 ChatGPT 中推出，并向 Plus 用户提供高达 5 倍的消息上限。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

现在打开 ChatGPT，我们发现 GPT-4o 已经可以使用了。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

使用 GPT-4o 时，ChatGPT 免费用户现在可以访问以下功能：体验 GPT-4 级别智能；用户可以从模型和网络获取响应。

此外，免费用户还可以有以下选择 ——

分析数据并创建图表：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

和拍摄的照片对话：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

上传文件以获取总结、写作或分析方面的帮助：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

发现并使用 GPTs 和 GPT 应用商店：

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

以及使用记忆功能打造更有帮助的体验。

不过，根据使用情况和需求，免费用户可以使用 GPT-4o 发送的消息数量会受到限制。当达到限制时，ChatGPT 将自动切换到 GPT-3.5，以便用户可以继续对话。

此外，OpenAI 还将在未来几周内在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha，并通过 API 向一小部分值得信赖的合作伙伴推出对 GPT-4o 更多新的音频和视频功能。

当然了，通过多次的模型测试和迭代，GPT-4o 在所有模态下都存在一些局限性。在这些不完美的地方，OpenAI 表示正努力改进 GPT-4o。

可以想到的是， GPT-4o 音频模式的开放肯定会带来各种新的风险。在安全性问题上，GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术，在跨模态设计中内置了安全性。OpenAI 还创建了新的安全系统，为语音输出提供防护。

新的桌面 app 简化用户工作流程

对于免费和付费用户，OpenAI 还推出了适用于 macOS 的新 ChatGPT 桌面应用程序。通过简单的键盘快捷键（Option + Space），用户可以立即向 ChatGPT 提问，此外，用户还可以直接在应用程序中截取屏幕截图并进行讨论。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

现在，用户还可以直接从计算机与 ChatGPT 进行语音对话，GPT-4o 的音频和视频功能将在未来推出，通过点击桌面应用程序右下角的耳机图标来开始语音对话。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

从今天开始，OpenAI 将向 Plus 用户推出 macOS 应用程序，并将在未来几周内更广泛地提供该应用程序。此外今年晚些时候 OpenAI 会推出 Windows 版本。

奥特曼：你们开源，我们免费

在发布结束后，OpenAI CEO 山姆・奥特曼久违地发表了一篇博客文章，介绍了推动 GPT-4o 工作时的心路历程：

在我们今天的发布中，我想强调两件事。

首先，我们使命的一个关键部分是将强大的人工智能工具免费（或以优惠的价格）提供给人们。我非常自豪地宣布，我们在 ChatGPT 中免费提供世界上最好的模型，没有广告或类似的东西。

当我们创立 OpenAI 时，我们的最初构想是：我们要创造人工智能并利用它为世界创造各种利益。现在情况有所变化，看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，我们所有人都会从中受益。

当然，我们是一家企业，会发明很多收费的东西，这将帮助我们向数十亿人提供免费、出色的人工智能服务（希望如此）。

其次，新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样，我仍然有点惊讶于它竟然是真的。事实证明，达到人类水平的响应时间和表达能力是一个巨大的飞跃。

最初的 ChatGPT 暗示了语言界面的可能性，而这个新事物（GPT-4o 版本）给人的感觉有本质上的不同 —— 它快速、智能、有趣、自然且能给人带来帮助。

对我来说，与电脑交互从来都不是很自然的事情，事实如此。而当我们添加（可选）个性化、访问个人信息、让 AI 代替人采取行动等等能力时，我确实可以看到一个令人兴奋的未来，我们能够使用计算机做比以往更多的事情。

最后，非常感谢团队为实现这一目标付出了巨大的努力！

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

值得一提的是，上个星期奥特曼在一次采访中表示，虽然全民免费收入（universal basic income）难以实现，但我们可以实现「全民免费计算 universal basic compute」。在未来，所有人都可以免费获得 GPT 的算力，可以使用、转售或捐赠。

「这个想法是，随着 AI 变得更加先进，并嵌入到我们生活的方方面面，拥有像 GPT-7 这样的大语言模型单元可能比金钱更有价值，你拥有了部分生产力，」奥特曼解释道。

GPT-4o 的发布，或许就是 OpenAI 朝着这方面努力的一个开始。

是的，这还只是个开始。

最后提一句，今天 OpenAI 博客中展示的「Guessing May 13th’s announcement.」的视频，几乎完全撞车谷歌明天 I/O 大会的一个预热视频，这无疑是对谷歌的贴脸开大。不知道看完今天 OpenAI 的发布，谷歌有没感到巨大压力？

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

本文来自微信公众号“机器之心”

OpenAI，没有“王炸”

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3666 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

全能模型 GPT-4o

GPT-4o 性能评估结果

ChatGPT 用户将免费获得更多高级功能

新的桌面 app 简化用户工作流程

奥特曼：你们开源，我们免费

OpenAI，没有“王炸”

火热的AI赛道，投资人看好哪个？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3666 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

全能模型 GPT-4o

GPT-4o 性能评估结果

ChatGPT 用户将免费获得更多高级功能

新的桌面 app 简化用户工作流程

奥特曼：你们开源，我们免费

OpenAI，没有“王炸”

火热的AI赛道，投资人看好哪个？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿