大模型从“聊天机器人”到每个人的Killer APP,中间到底还有多远?

当提到AI,从上世纪的理论提出到如今在各行业的广泛应用,我们首先想到的是AI技术如何逐渐从科幻概念转化为我们日常生活中的实际工具,以及它如何成为推动社会进步的重要力量。今天,36氪荣幸的邀请到了几位的老朋友,一起来聊聊,“AI靠什么走向大众”?以下是访谈实录:

36氪圆桌:大模型的应用落地,有没有捷径可走?|新质生产力·AI Partner大会

圆桌成员

访谈嘉宾为:

OPPO AI技术规划总监 陈晓春先生

印象笔记 高级副总裁 乔迁先生

面壁智能 CTO 曾国洋先生

邓咏怡(主持人):大家好,欢迎来到36氪AI Partner大会,我是这场圆桌的主持人邓咏怡,很高兴跟大家相聚在这里,大家谈起AI是非常有信仰的样子,我们这场希望更加聚焦怎么进入到日常生活,这也是圆桌的主题。

非常幸运邀请到三位嘉宾,刚好集齐硬件终端、印象笔记软件层以及大模型公司,也是今年特别热议的话题。

陈晓春:我是OPPO AI中心的陈晓春,OPPO的AI也是我们看到确定性的趋势,一月份刚刚成立的,把AI资源更好用来服务OPPO广大的用户,成立了这样一个中心,昨天有Reno12的发布会,有一键闭眼修复功能,拍的很多照片有一两个伙伴没有带很好的状态睁眼,也可以把这个照片修复,不需要再重新补拍了。

邓咏怡:拯救不爱睁眼的小伙伴,也不用再重新补拍了。

印象笔记去年也发了自己的大模型,有请乔总。

乔迁:大家好!提起印象笔记,大家应该有一定程度的了解了,印象笔记源自一款硅谷的软件产品Evernote,2012年进入中国市场。2018年,印象笔记公司完成独立重组,正式变为中国的创业企业。我们信奉人类的本质是与遗忘做斗争,因此在产品创立之初就确定了产品的初心和使命是做人类的「第二大脑」,公司和产品多年的发展也一直围绕着信息记录、收藏、保存、知识整理等信息管理全流程的智能体验在持续努力。 

2023年4月,印象笔记推出了自研的「印象大模型」和大模型驱动下的「印象AI」服务,赋能了旗下的软件和硬件产品,也给了「第二大脑」更多的可能性。人类的大脑不仅仅是在记录,要更会思考,而有着「印象大模型」加持的印象笔记,也正在从帮助用户记录,走向帮助用户思考和提升,成为用户更智能的「第二大脑」。 

希望借今天这个机会,能够跟大家分享一下印象笔记从AI大模型到落地应用的一系列完整思考。 

邓咏怡:接下来有请面壁的曾总聊一聊,面壁是大模型领域的明星企业,不仅有千亿级大模型,最近还发了轻量级端侧模型,曾总简单介绍一下。

曾国洋:非常感谢您的介绍,大家好,我是曾国洋,面壁智能CTO,在公司主要负责大模型训练相关的工作,我们团队一直以来也是比较开放的,喜欢拥抱开源社区,将领先的模型、技术、数据等通过开源社区提供给广大开发者,降低技术门槛。

最近我们也发布了面壁MiniCPM旗舰端侧大模型系列,广受开发者欢迎,相比于前段时间大家一味追求参数量更高的大模型,我们从模型实际应用需求出发,将模型参数量控制在百亿以内,实现了「以最小参数,撬动最强性能」的最佳平衡点,能力超过很多比它参数量大好几倍的模型。之前我们做了非常多如何将模型训的更好,让模型发挥更好的性能的工作。像MiniCPM这种规模的模型,受到了包括应用开发者、独立开发者、业界其他研究人员的喜爱,我也不说的太长,这就是我大概的介绍。

邓咏怡:感谢三位嘉宾的介绍。

大模型加持下的语音助手在交互层面将带来什么样的革命

接下来从比较热议的话题开始聊起,刚才嘉宾也谈到交互层面语音助手的形态,大模型能够做到跟真人一样交互,三位嘉宾怎么看这样的产品是什么样的感受?

陈晓春:我们做硬件终端秉持着怎么把极致体验带给消费者,我们一路走来从功能机到智能机再到AI手机,每一部变化伴随着并不是营销的噱头,而是实实在在本身给用户传递服务的方式,功能机到智能机,核心是原来的键盘到电容屏以及到附着的生态,互联网应用,通过媒介带给用户。而从智能机到AI手机,需要的是交互全面的革新,而不是让用户生硬觉得我原来的手机上加一堆AI,就变成所谓AI手机,本质上还是在上面叠加上去的东西,是需要大的交互模型的改变。

GPT4的发布让我们感受到这样时代的到来,非常自然的与人进行交互,从我们的理解来说,未来在AI手机上,不光是知识获取,原来在智能机时代是通过信息不对称性的打破,大家能够在这一块屏幕上获得信息,而到了新的时代,GPT4O带来大的趋势,我们能够从上面获得你想要的知识,同时可以改变原有服务供给的方式,我跟他自然的对话,自然直觉化交互甚至是代入除了视觉的界面,除了听和说的界面,直觉化交互能够帮他服务分发,未来才能真正打开进入AI手机的大势。

邓咏怡:这个还挺有启发的,原来大家都是按键,触摸屏刚出来的时候大家都在切西瓜,再到现在4O直接语音,用摄像头直接看你,这也是交互方式的变化。

乔迁:看了GPT4O的发布会后,我个人感触最深的是可汗学院创始人和他的儿子演示的如何利用GPT4O来解答数学题,这让我一下子看到了希望——再也不用“不写作业时父慈子孝,写作业时鸡飞狗跳”了。从概念上来说,“O”是泛模态或者多功能的概念,也就是说AI应用中的交互变的多种多样,信息捕捉以及信息反哺也都会随之变的更加多样化,从而使得AI离大众的生活场景越来越近。 

曾国洋:GPT4O发布后大家褒贬不一,不同的观点还挺多的,有人因没有发布GPT5而失望,也有人觉得4O的发布表现比较惊艳,我偏于后者,因为我感觉这是非常令人震撼的产品,将超强实时视频和语音交互多模态模型能力推入实际应用。

大模型从ChatGPT出来的时候在交互形式上就已经开始革新,改变了传统AI单一、专用智能的交互形式。ChatGPT似乎能听懂指令,帮助完成一些任务,但单纯的文字交互是不够的,我也不是很喜欢通过一大堆AI才能真正了解用户的方式。因此我非常认可更多模态输入的发展方向。未来的交互模式将不仅限于文字输入,还会包括语音、视频输入以及其他传感器输入。

为了达到真正的人工智能,仅有的数据是不够的,我们还需要发展具身智能,把AI装到某些小的设备里,通过传感器收集很多不同模态的数据,这样才能让AI更好理解这个时代、环境,以及AI在这个环境下能够给人类做什么样的工作,这个方向我是深刻认可的。

也许在未来交互模式还会进一步演化,让AI真正理解人类,通过一两句话,甚至微小的表情动作都能读懂你,那才是真正的未来。

邓咏怡:你不一定要把公域里的数据拿过来造一个越来越大的模型,数据不够了,先做力所能及的创新也是好的,我追问一个问题,4O你来说是特别惊艳的产品层面的创新,能够做到跟人实时对话还能随时打断。

曾国洋:OpenAI一直是比较神秘的公司,他们怎么做的,现在也不说清楚,这个大的方向业界一直有人在研究,基于现在的模型架构,大模型都是以token的级别来交互的,而人和人以时空纬度进行交互的,这一块是不同的,广大开发者对这个也比较感兴趣,我们也在尝试做一个开源项目让大家使用。

邓咏怡:大概什么时候能出来?

曾国洋:这个也涉及到具体技术研究,也没有办法打包票什么时候能出来。

大模型离Killer APP还有多远

邓咏怡:过去两年大家都在模型层有激烈的竞争,大模型说了这么久,实际生活怎么把AI用起来是一个关键的问题,圈内大家都说没有特别好的,现在已经有的应用好的,访问用户国内就几百万,刚刚过千万,这是困惑大家比较久的问题,请三位嘉宾讨论一下,为什么会有这样的现象产生,它跟大众的GAP在什么地方?

曾国洋:对这个现象我也思考了很久,大模型出现是代表着技术和生产力的一次重大飞跃,但我们还没有足够的时间来消化和理解这一飞跃。随着我们对大模型的探索和应用不断增加,我们对大模型的认识,包括未来发展的趋势和速度,也在不断变化。现在大模型诞生时间积累上还没有到达那个时间点,什么时候会出现,我也不太好预测。

乔迁:我的观点是赞同(killer app会出现)的。把时间往回倒,我们可以找一个与AI大模型可类比的基础建设或者基础设施——电力,在发展初期,首先考虑的肯定是电力供应,然后才会出现各种各样的电器,来帮助我们生活、生产。再找一个近期能够看到的例子就是移动互联网,随着移动互联网基础建设完善,4G、5G普及,之后移动互联网的应用慢慢成熟,才看到了移动互联网改变生活的情况出现。 

AI大模型的发展也是如此,首先大模型本身还在演进过程中,应用和模型之间的配合也会有很多需要磨合的点,但总体来说,我对这个事是非常乐观的。 

邓咏怡:需要一定的时间等待对吧。

乔迁:对。

邓咏怡:比如这个技术出来一直到成熟您觉得中间会经历多长周期?

乔迁:我乐观估计会在6个月-12个月的时间。

邓咏怡:近在咫尺。

陈晓春:从我们的视角来说我也经常收到以前的同学、周围的同事,最近因为AI的事情跟我聊,说陈晓春你转岗去做AI战略赋能,我在OPPO工作了五年,我一直在负责AI,但他们没什么感知。但其实,从智能机时代AI一直在手机里,给做推荐,我们产线上也用AI做预测性维护,AI一直都在,消费者一直没有感知到,这是一个问题。包括ChatGPT在2022年底出现以后,把AI带到每一个人家中,不管在广场舞上都能听到去聊这个,真正让消费者感知到的,作为终端公司我们在这里面能做什么,能不能把硬件到软件交互,到应用我们以行业普及者、推动者的姿态去把这个事情组织下来,让消费者能够感知的更好,如果我们能够做成这个事情就可以解决这个问题。

我们一直在想,很多时候作为终端公司我们在这里面为行业贡献什么,GPT4O非常好的形态,给我们一个交互启示,比如今天来参加36氪的会议,晚上吃点好的,这就是人自然的对话,这里面还有一些引申含义,在哪里开会,中午吃过了什么,晚上不能再推荐了,背后有很多技术如何才能组织起来,才能真正把这个事情给推动,这也是OPPO的愿景,我们愿意做这里面的普及者。整体来说我们还有很多事情要做,但是好的是,我们看到整个行业不断有新的东西发布,我也同意乔总的观点。

邓咏怡:每天解锁的人脸识别就是上一个AI浪潮里面做的很成熟的一个功能,过于日常了,大家已经习惯这个存在了,未来随着大模型真正落地到终端里,大家每天都跟它对话,你很快感觉不到它是AI,我感觉是这样的趋势。

模型能力还有一个爬坡期,要真正把这些大模型用到具体日常功能里,OPPO也是做硬件终端多年了,具体来说有哪些工程上的挑战,我们现在是可以去挑战的,可以努力做的工作。

陈晓春:AI工程化推进以硬件公司的视角,我们有很多模型本身运行在云上,端上能够商用的,在OPPO Find7系列端上已经上了大语言模型,端侧模型参数量还是有限的,要做存量化工作,很多需要放在云上端云之间的架构,端侧本身我们需要有一个更好的生态,不光是在端侧的算力上,包括端侧的异构算力如何去用好,算力和内存之间带宽我们如何做一些优化,这是工程上做的比较多。手机每一个代际的转换,核心是消费者要认同,交互的改变,想方设法在交互上做到一些创新的体验。在应用层,刚才嘉宾提到所有的应用都值得去重构,重构,不只是作为手机的应用,打电话怎么做一个通话摘要,任何时候不会错过重要的电话,包括拍照这个功能一键修,包括日常管理变迁整体重构,整个过程在工程化,我们要投很多资源攻破瓶颈。

邓咏怡:接下来我们有一个单独提问的环节,三位嘉宾从各自公司帮助大众走向AI具体做了什么,以及在新的浪潮拥抱,印象笔记他们自己也发了大语言模型,印象AI,在写作、办公协作都结合了AI的功能,您觉得文档工具型产品,在新的时代里面怎么更好结合大语言模型相关技术给用户提供更好的服务?

乔迁:去年4月,我们用自研的「印象大模型」赋能了旗下软件和智能硬件产品,从上线公测到转正、开启商业化,一年多的时间和过程,积累了很多心得。 

我们的观点肯定不是一个简单的“大模型+应用”的方式,我们有一个“用复合AI系统打造AI应用”的思路。“复合AI系统”包含六个要素:模型、数据、用户、交互、场景和载体。很多大模型变成应用以后就直接采用对话的交互方式,但是放在文档类或者写作类产品中,用于辅助写作的时候是不方便的,而GUI或者图形交互的方式,在你写作时快捷出现,帮助你来改写、翻译、名词解释,这对于用户来说是更方便的。 

印象笔记的大模型和应用之间的结合,目前有三个主要的产品形态:「AI帮我写」、「AI帮我读」、「AI助手」。「AI帮我写」和「AI帮我读」大家应该比较熟悉了,不再赘述,今天主要介绍一下「AI助手」,也是印象笔记独有的形态。印象笔记的用户被称为“知识工作者”,他们在印象笔记里积累了大量的数据和信息,如何让AI帮助用户更好地了解自己所掌握的知识,或者把自己所掌握的知识和信息,通过AI的加工,内化形成自己的知识体系,这些就是印象笔记的「AI助手」要做的。我们会在保证用户数据绝对安全的前提下,通过用户授权的方式,让大模型对数据信息进行加工检索,比如,根据用户上周的笔记,自动生成当周周报,比如根据用户的读书笔记,帮助用户依照偏好推荐下周读的书、看的电影。 

前面的演讲嘉宾提到,公域数据越来越受限,怎么把用户私域数据和大模型结合在一起,帮助用户形成个人的知识助手,这也正是我们产品未来很重要的发展方向。 

邓咏怡:大家不是很习惯用文字和AI交互,已经上线图形化模块了吗?

乔迁:图形化模块是在用户的写作界面里。

邓咏怡:写着写着没有灵感了。

乔迁:点一下就出来了。

端侧大模型的机会和困难在哪里

邓咏怡:国洋总,面壁出了端侧小模型,如果让大模型真正进入到我们的生活,放在手机、家电终端上,你们觉得大模型的训练和推理侧有什么难点需要解决?

曾国洋:大模型在训练和推理过程中,需要消耗大量资源,要让大模型运行在端侧,会有非常多的限制,大家也都知道端侧的硬件设备有资源上的限制,这个是充满挑战的。然而,我们认为是一个必要的过程。参考计算机发展历史,计算机的发展从几间房的体积缩小到一个文件袋的大小,最终造出第一部真正让每个人都用上计算机。大模型的发展也需要经历类似的过程。大模型要从庞然大物变的越来越小巧、精美,才能让越来越多的人接触到大模型,才能让大模型广泛应用落地。

邓咏怡:OPPO陈总,你们肯定在端侧大模型有一些研究,你们觉得端侧大模型的成本下降的更快吗?

曾国洋:端侧我们也要做大模型,我们看到产业界有很多大的企业在做,一开始端侧我们做中文词逐字推文做不到10秒,现在我们可以做到20。

功耗方面现在也有很多相应的方案,设法去做功耗和用户体验的平衡,模型端侧对用户来说也是有明确激活用户场景的,在无网弱弱环境的应答,我昨天从欧洲回来,我手机在漫游状态下,每一个推理、报文都需要从欧洲大地传回祖国推理结果再告诉你,这个情况下时延也是很大的,由于5G网络本身漫游情况下网络回顾的架构,这种情况下你再做实时翻译,就会感觉有点不那么实时,端侧可以解决这个问题。

乔总也说到用户有隐私授权,用户端侧行为训练,用户本能来说不太信任这个东西,这个时候我们在端上如果有一个模型,我们可以做很多类似的事情,让用户觉得安心放心,这块价值很大,性能各方面提升也很快,非常感谢整个产业在上面做出的努力。

邓咏怡:这就是来自前端硬件设备的感知。您刚才提到大模型它的推理和训练成本下降也是有一个周期,需要更长时间才能达到足够便宜,用在这些设备上能够让大家没有多大的时延就能体会到服务,就你看来现在模型的推理成本,最近大模型也在降价,像算力、水电随取随用还便宜,你觉得这个需要多长时间?

曾国洋曾国洋:大模型主要推理成本来自于两方面,一方面是电力,另外一方面是设备,我个人对这个非常乐观,像硬件这方面大家也都挺卷的,我非常看好硬件水平包括算力、功耗、能耗发展的发展速度。

邓咏怡:因为大模型都在说你要找到一个足够好的场景在里面提供数据再反哺到模型里,中国市场如果在C端层面落地大模型,哪些场景会特别有优势,相比国外。

曾国洋:我也关注国内外在大模型应用上的区别,我有一些海外的朋友,跟他们吐槽,ChatGPTPlus太贵了,一个月20美元,而在国内一个月,一个月收你150块钱,很难想象这种情况下会有一个大规模C端的应用层,国内外会有一些区别,也许我们需要走出一些更有我们自己的特色,更符合实际市场环境的应用出来才行。

邓咏怡:你最近有看到什么有意思的应用吗,比如国外他们的收费模式大家已经习惯了,但国内用户不太习惯这一点。

曾国洋:在这个方面有很多不同的情况,包括消费习惯以及大家喜欢的东西。

邓咏怡:以后在C端落地大模型,国内市场有什么场景你觉得是有优势的?

曾国洋:国内大家都使用同样的语言,有大量的市场群体,从技术角度来看,这也使得相关技术的实现更加容易,也会是我们在大模型应用方面的独特优势。

邓咏怡:确实,本地大一统市场中国是巨大的市场,你把中文做的足够好,也不愁没有用户。

陈总,我看OPPO去年在AI层面也有一些投入,OPPO在AI的投入没有上线,未来AI手机在你们的想象里会是什么样?

陈晓春:不管是软件层面交互改变还是硬件做这样那样的工作,本质还是要回到手机给用户带来什么价值,我们分析用户现在带来什么样的价值,同时分析用户现在面临什么样的问题,如果谈的大一点后工业时代有什么问题,时间是碎的,是被打破的,电子产品到底给用户带来的是更便捷还是让用户的时间变的更碎,我们也想了几个大的方向,从用户视角出发。

第一个,我们在开车的时候接一个电话,老板给你交代一个下周一你要干什么事情,电话通话记录,摘要生成,乃至于日程设置等一系列工作是不是可以通过手机AI方式完成。

第二个,能不能解决知识不对称性,像我们推出一个功能,小布通话助手,我们经常遇到很多骚扰电话,接不是,不接也不是,通过AI帮你接一个电话生成摘要,恰恰是有用的。比如现在开会有人打电话给我,发条短信回给你,现在可以用AI帮你接电话,现在也有很多家长没时间或者没能力辅导孩子功课,我们推出小步英语老师解决知识的不对称性。第三个方面我们想着如何利用AI的能力给用户真正带来方便,像我们做的一键消除,一键消除大家觉得圈选太麻烦,还是点一下最方便,我们听消费者把这个功能上了,像一键闭眼修复,AI相册视频、语音等处理,这些都是给用户带来乐趣。在过年,小布经常上放烟花有趣的功能,AI消除在春节期间我们看到新机每天有15次的数量级,通话摘要是75万小时工作的记录。

只有通过这三个方面真正把消费者立场的东西做好,用户才会认可这是AI手机,否则一直停留在营销层面。

邓咏怡:我从陈总的回答里面get一个逻辑,现在大模型技术能够做好最后一公里的事情,开车的场景,AI之前只能做到对话录下来,没有办法做到下一步,帮你把要做的事情记到备忘录,大模型往下可以再做一步,让用户感知到像人一样帮我做这个事情,我感觉这是非常重要的趋势。

刚刚也谈论了非常多的话题,不管是从行业热点趋势谈到了AI助手新趋势对大众产品有什么新影响,也从三位嘉宾各自公司业务大家具体怎么让大模型技术落地的。

最后用比较轻松的话题收尾,三位嘉宾怎么看三到五年后我们的日常生活会变的怎么样,你们期待什么样的产品发生颠覆式改变,你们希望怎么跟它交互。

曾国洋:对我来说我希望有个非常懂我的个人助理,不用写上千字的文字才能理解我要干的活,而是可以通过微表情解决我的问题。AI也能应用到各个不同的行业里,我对这部分倒没有想的特别好,我还是希望挺乐于见到这方面新的不一样的特点。

邓咏怡:AI助手跟小步助手可以做的事情,后面要加油努力。

乔迁:站在企业层面,我非常期待端侧模型的发展。对于印象笔记来说,我们产品本身的数据是离线存储+云端存储,很多推理都是在云端解决的,随着未来端侧算力增加,端云一体的解决方案能帮助我们优化产品方案,让产品在更多情况下成为用户的个人助手。 

从个人层面来看具身智能的发展,好像AI发展的方向错了,本来我们希望AI来帮我们扫地洗碗,把时间留给我们来写诗画画,现在看起来扫地洗碗的事儿还是人类在干,AI反而去写诗画画了。希望未来具身智能的发展,能够真的将人类从日常繁琐的事情中解脱出来,不过,当真正的AGI诞生后,我们需要讨论的或许就是人类与AI如何和谐发展的问题了。 

邓咏怡:这个话题更大了,还是希望能和AI和平共处,帮我们解放更多的生产力,让我们写诗画画,更轻松一点。

陈总,您觉得三到五年您最期待看到的变化会是什么?

陈晓春:还是更希望用户能够看到用AI,但是用户不会感觉到我在用AI,让用户直觉给他交互,让他感觉不到AI。让AI走进每个人,是希望将来能看到的。

邓咏怡:希望未来AI像上一个时代云那样,嵌在每个产品和服务里面,用户是否感知到你,也许不太重要。

三位嘉宾讨论下来给我的感觉都非常乐观,无论是模型层、推理、训练层面,成本下降也是很快的,半年或一年之后,我们能看到大批量应用诞生,也能给我们提升各种各样从工作生活娱乐,像印象笔记这样有口碑的产品,加上大模型以后能够给你做到的事情变的更多,帮你写作、思维导图,这样的事情能够简化工作里面繁琐的步骤,陈总给我一个感受,你在交互层面做的更加直觉易点,不用思考,直接跟机器交互,就像人一样,未来大模型会成为人类的伙伴。

本文来自于“腾讯科技”,作者:李然然

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...