OpenAI 重磅发布 GPT-4o ：见证《Her》的诞生！

2024-05-14 阅读 48 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

原生多模态

实时语音交流

GPT-4o 能够跨越语音、文本和视觉进行推理和交流，Altman 在 X 的发帖说其是原生多模态。所有的输入和输出都由同一个神经网络处理，GPT-4o 是 OpenAI 第一个结合了所有这些模态的模型。

OpenAI 重磅发布 GPT-4o ：见证《Her》的诞生！

在官方的演示中，ChatGPT 的语音交流速度非常快，可以在 232 毫秒内响应语音输入，平均 320 毫秒，与人类反应时间类似。而在此之前，与 ChatGPT 对话的平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。

而且与现有的其他语音模式相比：

可以随时打断模型的语音输出，
实时，没有尴尬的停顿，
理解情感，并能以不同的情感风格生成语音。

GPT-4o 也提高了 ChatGPT 的视觉能力，提供一张图片或者照片——甚至直接开启相机，ChatGPT 都能很快识别图片里的内容，并且给予准确的答复，从解读代码、数学题识别到人脸的情绪识别，都能轻松识别。

同样强大的语音能力，在语音翻译上自然也不遑多让。发布会上演示的意大利语和英语交流时的同声翻译，让人印象深刻。

在官网发布的能力测试报告中，多模态的成绩让人惊喜。

OpenAI 重磅发布 GPT-4o ：见证《Her》的诞生！

在一些多模态的基准测试集上全面超越之前的模型，可以看到 GPT-4o 在视觉感知基准上实现了碾压。

更便宜、更快

OpenAI再打「响指」，硬「杠」谷歌，「免费」开道

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

OpenAI 重磅发布 GPT-4o ：见证《Her》的诞生！

原生多模态

实时语音交流

更便宜、更快

更多语言能力提升

OpenAI再打「响指」，硬「杠」谷歌，「免费」开道

视觉语音交互毫无延迟，都成精了居然还不是GPT-5?

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

OpenAI 重磅发布 GPT-4o ：见证《Her》的诞生！

原生多模态

实时语音交流

更便宜、更快

更多语言能力提升

OpenAI再打「响指」，硬「杠」谷歌，「免费」开道

视觉语音交互毫无延迟，都成精了居然还不是GPT-5?

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿