免费版GPT-4o来了，视频语音交互丝滑到吓人

2024-05-14 阅读 31 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

ChatGPT 版“贾维斯”，

ChatGPT 不光能说，能听，还能看，这已经不是什么新鲜事了，但“船新版本”的 ChatGPT 还是惊艳到我了。

睡觉搭子

以一个具体的生活场景为例，让 ChatGPT 讲一个关于机器人和爱的睡前故事，它几乎不用太多思考，张口就能说出一个带有情感和戏剧性的睡前故事。

甚至它还能以唱歌的形式来讲述故事，简直可以充当用户的睡眠搭子。

做题高手

免费版GPT-4o来了，视频语音交互丝滑到吓人

又或者，在发布会现场，让其演示如何给线性方程 3X+1=4 的求解提供帮助，它能够一步步贴心地引导并给出正确答案。

当然，上述还是一些“小儿戏”，现场的编码难题才是真正的考验。不过，三下五除二的功夫，它都能轻松解决。

免费版GPT-4o来了，视频语音交互丝滑到吓人

借助 ChatGPT 的“视觉”，它能够查看电脑屏幕上的一切，譬如与代码库交互并查看代码生成的图表，咦，不对劲？那我们以后的隐私岂不是也要被看得一清二楚了？

免费版GPT-4o来了，视频语音交互丝滑到吓人

实时翻译

现场的观众也给 ChatGPT 提出了一些刁钻的问题。

从英语翻译到意大利语，从意大利语翻译到英语，无论怎么折腾该 AI 语音助手，它都游刃有余，看来没必要花大价钱去买翻译机了，在未来，指不定 ChatGPT 可能比你的实时翻译机还靠谱。

感知语言的情绪还只是第一步，ChatGPT 还能解读人类的面部情绪。

免费版GPT-4o来了，视频语音交互丝滑到吓人

在发布会现场，面对摄像头拍摄的人脸，ChatGPT 直接将其“误认为”桌子，正当大家伙以为要翻车时，原来是因为最先打开的前置摄像头瞄准了桌子。

不过，最后它还是准确描述出自拍面部的情绪，并且准确识别出脸上的“灿烂”的笑脸。

有趣的是，在发布会的尾声，发言人也不忘 Cue 了英伟达和其创始人老黄的“鼎力支持”，属实是懂人情世故的。

对话语言界面的想法具有令人难以置信的预见性。

Altman 在此前的采访中表示希望最终开发出一种类似于 AI 电影《Her》中的 AI 助理，而今天 OpenAI 发布的语音助手切实是有走进现实那味了。

OpenAI 的首席运营官 Brad Lightcap 前不久曾预测，未来我们会像人类交谈一样与 AI 聊天机器人对话，将其视为团队中的一员。

现在看来，这不仅为今天的发布会埋下了伏笔，同时也是我们未来十年生活的生动注脚。

苹果在 AI 语音助手“兜兜转转”了十三年的时间都没能走出迷宫，而 OpenAI 一夜之间就找到出口。在不久的将来，也许人手一个钢铁侠的“贾维斯”将不再是幻想。

《她》来了

虽然 Sam Altman 没在发布会上出现，但他在发布会后就发布了一篇博客，并且在 X 上发了一个词：her。

这显然在暗指那部同名的经典科幻电影《她》，这也是我观看这场发布会的演示时，脑子里最先联想到的画面。

电影《她》里的萨曼莎，不只是产品，甚至比人类更懂人类，也更像人类自己，你真的能在和她的交流中逐渐忘记，她原来是一个 AI。

这意味着人机交互模式可能迎来图像界面后真正的革命性更新，如同 Sam Altman 在博客中表示：

新的语音（和视频）模式是我使用过的最好的计算机界面。它感觉像电影中的人工智能；而且我仍然有点惊讶它是真实的。达到人类级别的响应时间和表现力原来是一个很大的改变。

之前的 ChatGPT 让我们看到自然用户界面初露端倪：简单性高于一切：复杂性是自然用户界面的敌人。每个交互都应该是不言自明的，不需要说明手册。

但今天发布的 GPT-4o 则完全不同，它几乎无延迟的响应、聪明、有趣、且实用，我们和计算机的交互从未真正体验过这样的自然顺畅。

这里面还藏着巨大可能性，当支持更多的个性化功能和与不同终端设备的协同后，意味着我们能够利用手机、电脑、智能眼镜等计算终端做到很多以往无法实现的事情。

AI 硬件不会再试积累，当下更令人期待的，就是如果下个月苹果 WWDC 真的官宣与 OpenAI 达成合作，那么 iPhone 的体验提升或许将比近几年任何一次发布会都大。

英伟达高级科学家 Jim Fan认为，号称史上最大更新 iOS 18 ，和 OpenAI 的合作可能会有三个层面：

放弃 Siri，OpenAI 为 iOS 提炼出一个纯粹在设备上运行的小型 GPT-4o，可选择付费升级使用云服务。

原生功能将摄像头或屏幕流输入到模型中。芯片级支持神经音视频编解码器。

与 iOS 系统级操作 API 和智能家居 API 集成。没有人使用 Siri 快捷方式，但是是时候复兴了。这可能会成为一开始就拥有十亿用户的 AI 代理产品。这对智能手机来说，就像特斯拉那样的全尺寸数据飞轮。

说到这里，也不得不心疼明天要举办发布会的 Google 一秒。

本文来自微信公众号：APPSO （ID：appsolution），作者：李超凡、莫崇宇

免费版GPT-4o来了，视频语音交互丝滑到吓人

鹅厂开招天才学生！专门挑战产业难题，顶尖科学家领衔带队

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

免费版GPT-4o来了，视频语音交互丝滑到吓人

ChatGPT 版“贾维斯”，

实时翻译

鹅厂开招天才学生！专门挑战产业难题，顶尖科学家领衔带队

ChatGPT-4o，OpenAI的一小步，人类「AI助理」的一大步

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

免费版GPT-4o来了，视频语音交互丝滑到吓人

ChatGPT 版“贾维斯”，

实时翻译

鹅厂开招天才学生！专门挑战产业难题，顶尖科学家领衔带队

ChatGPT-4o，OpenAI的一小步，人类「AI助理」的一大步

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿