大模型的下一场战争:带摄像头的智能眼镜?
大模型之战席卷了整个2023年,紧接着的是,各大科技巨头似乎都瞄准了AI可穿戴设备,尤其是智能眼镜!
智东西12月18日消息,据The Information报道,Meta、谷歌、微软、亚马逊、苹果五大科技巨头都准备将AI大模型应用在智能眼镜等带有摄像头的可穿戴设备上。他们认为智能眼镜等硬件将成为AI大模型的合适载体,因为多模态AI大模型可以处理声音、图片、视频等多类型的信息。
有知情人士透露,明星AI创业OpenAI最近也正在将“GPT-4 with Vision”的物体识别软件嵌入到社交公司Snap的产品中。这或许将为Snap的智能眼镜Spectacles提供新功能。
Meta在上周二展示了自己将AI功能融入至雷朋(Ray-Ban)智能眼镜的效果。该智能眼镜可以通过AI语音助手描述用户看到哪些东西,同时能够告诉用户哪件衬衫适合哪件裤子,以及拥有西班牙语报纸翻译成英语等一系列新功能。
亚马逊Alexa AI助理团队内同样有个小组在研发一种新型带有设觉功能的AI设备。此外,和多数手机厂商一样,谷歌开始尝试将AI功能应用到手机中。
不仅如此,今年6月,苹果Vision Pro头显正式亮相,计划在明年出售。但据The Information推测,该设备可能刚开始并不会具备多模态AI功能。
当一场新的移动终端变革开始,苹果、微软、谷歌、Meta等科技巨头将会如何布局新的战场?他们又是如何在各大硬件中凸显出自己的AI优势?哪些新的AI硬件或成为AI大模型的最佳载体?我们通过最新爆料可以看到一场AI硬件创新战正在开始。
01.谷歌:已适配手机AI助手Pixie,借助软件为智能眼镜提供搜索服务
在上周刚刚发布的AI大模型Gemini中,展示了一段AI是如何根据模仿者的动作,猜出电影名称的视频。它还展示了如何猜地图、如何处理手工问题等细节。
尽管视频内容可能有所编辑,但是该视频也透出了谷歌想要传达的基本思想:打造一款始终在线的AI,它可以通过人们在看、在听的东西,给用户直接的反馈或者帮助。一位直接了解谷歌消费硬件战略的人士表示,谷歌可能还需要数年时间才能提供这种体验,因为这种实施基于环境的计算将会耗费大量电力。
▲谷歌眼镜
现如今,谷歌正在重新设计其Pixel手机的操作系统,希望嵌入较小规模的Gemini模型,为其手机AI助手Pixie升级体验,比如说告诉用户周边哪里可以买到他们刚刚拍摄下来的产品。
基于谷歌在搜索技术上长期布局,The Information觉得基于周围环境信息,学习和预测人们需要或想要的AI设备似乎非常适合谷歌。尽管十年前,谷歌眼镜失败了,但是谷歌后续也推动安卓手机厂商们通过手机摄像头扫描环境并将图像推送到谷歌,然后基于云系统进行分析,从而形成“Google Lens”的图像搜索应用程序。
了解该战略的人士表示,该公司最近取消了眼镜式设备的开发,但仍在为该类型的设备开发软件。这些人士表示,谷歌计划将图像搜索软件授权给硬件制造商,类似于为三星等手机制造商开发安卓移动操作系统的方式,发挥其AI大模型的作用。
02.微软:在HoloLens上运行AI软件,通过聊天机器人提供多模态语言
在多模态AI大模型的热潮下,微软研究人员和产品团队也开始尝试升级自己的语音助手,并且尝试在一些小型设备上运行AI功能。
根据专利申请显示以及知情人士透露,其模型可以为一些平价的智能眼镜或者其他硬件提供支持。微软正计划在其AR头显HoloLens上运行AI软件。用户将头显前置摄像头对准物体,拍下照片发送给由OpenAI 驱动的聊天机器人,让聊天机器人直接识别物体。同时,用户还可以通过对话的方式,从聊天机器人这里获得更多的信息。
▲HoloLens
03.苹果:Vision Pro发布时或不会搭载AI大模型
苹果Vision Pro拥有不少多模态的新功能,但AI大模型方面的进展,和其他几家相比略有落后。目前,没有任何迹象表明Vision Pro在发布时将拥有复杂的物体识别或其他多模态AI功能。
但苹果花了数年时间完善Vision Pro的计算机视觉功能,以便该设备能够快速识别周围环境。这包括快速识别家具并了解佩戴者是坐在客厅、厨房还是卧室。或许,苹果正在开发可以识别图像和视频的多模态大模型。
▲Vision Pro
但和其他公司正在开发的眼镜形态相比,Vision Pro又大又重,且不适合在户外日常场景中使用。
另一方面,据报道,苹果公司今年早些时候暂停了自己的AR眼镜的开发工作,以专注于其头显的销售。目前尚不清楚AR眼镜的研发工作何时会恢复。
04.Meta:已适配雷朋眼镜,提供AI新功能
Meta首席技术官Andrew Bosworth周二在Instagram发帖说,部分雷朋(Ray-Ban)眼镜用户将能够直接在智能眼镜端访问AI大模型。
▲Ray-Ban
Meta的一些领导者将雷朋眼镜视为AR眼镜的“先驱”。该设备可以将数字图像与周围现实世界融合在一起。按照原计划,Meta计划在未来几年推出AR眼镜,但该计划遇到了一系列困难。具体而言,有报道称,智能眼镜很难吸引用户,并且新一代显示器开发遇到了难题。
但多模态AI大模型的到来似乎让Bosworth以及其团队重新焕发了新活力,让他们了解这款眼镜在短期内可以为客户带来一系列AI新功能。
05.亚马逊:开发新AI设备系列,或为智能眼镜提供支持
今年夏天,在亚马逊每年两次的产品规划中,Alexa团队的工程师提出推出一款能够运行多模态AI的新设备。
据直接了解相关项目的人士透露,该团队特别关注的是如何减少在设备上处理图像、视频和语音等AI计算和内存的需求。目前尚不清楚该项目是否获得了资金支持,也不清楚该设备打算为客户解决什么问题,但它与该公司的Echo语音助理设备系列是分开的。
此前,Alexa团队也曾研发过一款名为Echo Frames的智能音频眼镜。该设备不支持屏幕显示器或摄像头。目前尚不清楚亚马逊是否会开发具有视觉识别功能的智能眼镜。
06.AI可穿戴设备+摄像头,或成大模型最佳硬件载体
这不是硅谷巨头们第一次设计这类带有摄像头的可穿戴设备产品。此前谷歌、微软以及其他科技巨头都曾研发过AR头显。他们当初希望能够让数字屏幕出现在头显的半透明屏幕上,逐步提供指引帮助用户完成任务。但由于光学设计较复杂,最后多数产品反响不佳。
OpenAI推出的多模态大语言模型,可以通过视觉识别功能,让AI知道人们在看什么,在做什么,并且可以对这些行为、事物提供进一步信息。当大语言模型开始轻量化,一些小型设备也可以搭载模型,能够即时反馈用户的请求。考虑到人们对隐私安全的重视,人们可能还需要一段时间才能接受智能眼镜,以及一些内置摄像头的AI设备。
The Information觉得智能眼镜拥有AI助手后,或许将会成为像智能手机一样变革性的产品。它不但能成为指导学生数学问题或者论文问题的导师,还可以随时给周边的人提供环境信息,如翻译广告牌、告诉用户如何解决汽车故障等。
苹果公司前工程经理,AI搜索公司Objective的首席执行官巴勃罗·门德斯(Pablo Mendes)说:“AI大模型对一切都至关重要,它们将在计算机、手机和其他设备的底层架构中起到作用”。
07.结语:科技巨头寻求AI大模型最佳硬件载体
在由ChatGPT掀起的第三轮人工智能热潮中,多模态大模型属于底层基础设施,ChatGPT属于直接应用,这些都是已经明晰的答案。但ChatGPT在哪些设备上才能最大发挥出其应用潜力,哪些设备又是大语言模型的最佳载体?这些成为OpenAI、微软、谷歌等科技巨头们如今开始摸索的方向。
从The Information最新爆料看来,带有摄像头的智能眼镜成为不少巨头探索的重要方向,同时也有部分企业开始摸索研发新的可穿戴AI设备。又或者,尝试在手机上适配各类AI大模型。
其实不仅是科技巨头们如此思考。在国内,不少AR眼镜厂商们同样也认为这是机遇所在。“机器人和AR眼镜或许将成为这波AI大模型的最大受益者。”一位关注AI产业十余年的产业人士说道。
但在同一设计思路下,最后谁能调教出最好的轻量化AI模型?谁又能打造出最实用的智能眼镜?我们将持续观察各大科技巨头的进展,找到答案。
来源:The Information
文章来自于微信公众号 “智东西(ID:zhidxcom)”,作者 “徐珊”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则