草莓难救被“月抛”的AI对话产品？

2024-09-14 阅读 37 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

9.11还是9.9大？AI界的亘古难题

曾经AI对话因回答错“9.11还是9.9大”被热议，现在国内各家都迭代了多代大模型，文心、豆包、Kimi等都能答对这道简单的数字题。但是OpenAI新更新的o1模型却还是沉迷自己不知名的逻辑怪圈里，找不到正确答案。

草莓难救被“月抛”的AI对话产品？

但国内大模型也并没有领先多少，但当我们问对话大模型一些客观的问题，如“草莓的单词里有几个r”、“打了警犬算袭警吗”等问题时，就会发现，这个刚刚还无所不能的AI助手突然变得手舞足蹈、不知所云了起来。

草莓难救被“月抛”的AI对话产品？

目前来说，对话大模型在简单的场景仍易漏洞百出，网友戏言：就这？取代我们人类？

诚然，大模型幻觉率高的问题，始终制约着AI对话在C端的渗透。专注于用户体验的研究机构Nielsen Norman Group在23年9月发布的一篇研究文章中提到，在曾经使用过AI工具的人中，大多数（78%）将 AI 工具用于工作和个人目的；8%的人仅将 AI 用于个人用途。

而在精益求精的工作用途中，大模型幻觉显得更加致命。不仅如此，工作场景中精确的指令反而更易让大模型“发懵”，AI对话的表现也并不出色。

在十字路口与脱口秀演员毛东的播客中，毛东提到，在用AI对话启发脱口秀文本创作的过程中，需要提前对对话模型进行5分钟左右的预训练，而预训练后对话AI生成的稿件也并不能直接起作用。输入一些稍复杂的指令，如要求大模型同时将“模仿路易·C.K.脱口秀风格”、“加入结婚话题的段子”、“带一些北京方言”融入文本创作，大模型就会分不清重点，生成的脱口秀文本索然无味。

同样的，Nielsen Norman Group的用户研究也指出，在使用对话AI时用户几乎总是进行多步迭代，因为人工智能无法准确提供用户想要的东西——它只能猜测意图。假如问对话AI“从上海出差到北京，近十五天有什么天气变化？有哪些穿衣建议”，则需要先对AI下达查询近15日天气的指令，然后引导其回答上海与北京的温度差异，以及针对北京温度进行穿衣建议。

然而，对于同一问题，似乎国内AI对话还有部分进步空间，Claude、ChatGPT的回答更精准一些。

草莓难救被“月抛”的AI对话产品？

对话AI的记忆也限制了其用户体验。通常在与AI进行超过7-10轮对话后，AI的回答开始变得混乱或不连贯。这就像你在跟一个注意力持续时间只有5分钟的人聊天，每过一会儿就得重新介绍一遍背景，导致AI对话用户体验感平庸。

正如我们所见，无论是线性的还是非线性的回答，人们在滚动对话记录，寻找合适的回答时都容易迷失方向。这个过程中，对话大模型理解和表达能力有限，整体用户体验平庸，大多数用户们也经历了从新鲜感到失望，AI对话也难以高效留存住用户。

多模态交互技术不够成熟，距离“Her”实现尚远？

电影《Her》中的人工智能不是一个简单的对话式AI，她不仅能通过声音表现出极为复杂的情感，比如幽默、温柔、关怀甚至是嫉妒，还具有高度的情感智能和自主学习能力，能够理解人们的情感需求，并根据互动不断优化自己的言行。

仿真的语音对话交互、流畅的多模态体验，使故事的男主人很快忘记了面前的“女声”只是一团冰冷的算法，深陷爱河。

而5月，OpenAI的ChatGPT-4o发布会结束后，Sam Altman在Twitter上发了一个简短的词：“her”，暗示着OpenAI已接近于完成科幻电影《Her》中，那位女性语音智能机器人的能力。

GPT-4o支持文本、音频和图像的任意组合的输入和输出。Mark Chen演示GPT-4o的多模态成果时，他告知ChatGPT自己正在做演示，询问GPT自己非常紧张应该怎么办。ChatGPT提示他：“深呼吸一下吧，记住你是个专家！”随后，Mark Chen用非常急促的几声喘息回应，ChatGPT则用吃惊语气下的“慢点呼吸，你可不是个吸尘器！”来回答他，幽默的回答令人忍俊不禁。

GPT高效的生成速度，带来流畅的多模态交互体验，虽然暂时还不能如《Her》中一样流畅地进行视频对话，但演示案例中的语音对话已非常接近。

现实是，4o语音能力还没发布，o1还不具备浏览网页或处理文件分析功能。尽管它具备图像分析功能，但该功能暂时关闭，等待进一步测试。

但国内月活第一的豆包APP的互动能力却稍显逊色。豆包虽然能识别语音，并进行对话，但其生成速度却不及GPT，百度的文心生成速度则更慢。不仅如此，豆包也无法识别对话过程中的语气。AI鲸选社在与豆包交流时，用很沮丧的语气说“今天天气可真好啊”，可豆包却判断出对话者的情绪是不错的。

草莓难救被“月抛”的AI对话产品？

图注：与豆包语音交互过程的文字记录

百度的文小言语音对话，虽有AI虚拟角色丰富用户的视觉体验，但其生成内容实在是慢，用户在交互过程中盯着虚拟角色迟迟不“说话”，很容易“跳戏”。

草莓难救被“月抛”的AI对话产品？

图注：文小言语音交互界面截图

智谱清言于9月5日上线了“视频通话”功能，向着Her的目标又迈进了一步。然而，智谱的视觉能力不太完善，把图中的紫色看成粉色，绿色误认为灰色，堪称一位“色弱”的AI助手。不过，它的视频对话机器人非常活跃，善于引发话题，它会夸赞你的窗帘很有设计感，还会自己找话题，问你有没有什么拿手的菜。值得一提的是，智谱的生成速度比文心和豆包都稍快一些，交互体验还不错。

草莓难救被“月抛”的AI对话产品？

图注：智谱清言视频聊天截图

虽然现阶段语音、图像识别等技术正在快速发展，但真正流畅、自然的多模态AI对话体验仍然任重道远，目前来说，国内AI对话的多模态交互还不够成熟。

但无论是“her”还是GPT-4o，可见的是，具备多模态交互的AI对话产品，是AI对话发挥能力的关键。

AI对话对“Her”的向往，也是能留住用户的关键。这种最接近人类的聊天方式，才是打破只有专业人士用Prompt，才能和AI对话产品交互的桎梏。

AI对话还在寻找自己的killer feature

现在的AI对话应用确实有不少花哨的功能。它可以回答我们日常所问，它可以帮我们写情书，甚至还能和它玩角色扮演……

但据《2024年中国移动互联网半年报告》，国内AIGC用户不稳定，AIGC行业人均使用时长同比下滑了23.5%。AI对话类APP功能虽多，却都是一些“花拳绣腿”，获客成果并不理想。

周鸿祎曾指出，通用大模型留存率低的原因主要在于承诺什么都能做的同时，却什么都做不精。也正是因为功能过多过于繁杂，AI对话类APP还没有找到那个让用户欲罢不能的killer feature。

互联网时代，使支付宝、微信、抖音、美团真正杀出重围的，是它们都找到了自己的“杀手锏”。购物支付会想到支付宝，社交聊天会想到微信，闲暇时间会想要看看抖音，“饭来张口”会想到美团外卖……反观AI对话呢？它好像什么都能做，又好像什么都做不好。

目前，国内AI对话产品中，Kimi是较早找到应用场景的。知识高效获取一直都是职场、学生和科研人士的痛点问题，用户们拿到的资料往往都是大段资料，知识获取速度较慢。

Kimi抓住用户这一痛点，主打长文本和文档处理两个功能，能帮用户快速抓取文档重点，取得了还不错的用户体验。据AI数智源发表的8月国内AI榜单来看，Kimi仍以22.85M的数据领先其他家。但是实际上Kimi预训练较弱，模型本身能力并不强。但正是抓住了有效场景，Kimi的数据稳居国内大模型前列。

草莓难救被“月抛”的AI对话产品？

数据来源：Similarweb

目前其他家大模型，包括豆包、文心等，也都跟进了长文本处理和文档解读功能，能够满足用户日常工作所需。不仅如此，百度专门推出“橙篇”对标Kimi（橙篇提供专业的知识检索和问答、超长图文理解和生成、深度编辑和跨模态自由创作等功能）。这么看来，Kimi曾经的专长也并不显优势了。

而在龙头OpenAI内斗的这些日子里，Anthropic暗暗发力。据 Datos对ChatGPT调用场景的调查数据，编程问题占据了 29%，在所有使用场景中排名第一。Claude 3.5 Sonnet更新的“工坊模式”，强化编码能力，使生成代码速度更快，效率超过之前的GPT-4。编程作为最高频、刚需的AI应用场景之一，给市场带来了机会与收入。

OpenAI不放手编程场景。这次更新的o1模型主打强推理、强编码能力，有网友体验称其代码正确率确实有提升，“以前很少能一次run成功的”。o1还未正式开放，其效果究竟如何还待检验。

Claude 3.5的文本生成能力也在新Prompt“汉语新解”中得到了诠释。Claude于6月24日发布3.5模型，六月底，Claude流量激增135%。

草莓难救被“月抛”的AI对话产品？

图源：数字生命卡兹克

找到杀手级场景的AI对话产品风光创收，不禁让其他家焦虑了起来，各大AI公司都在绞尽脑汁找办法。

近日的外滩交流会上，阿里发布了“支小宝”全家桶，布局AI生活管家。百度也暗中转变战略，升级文心一言，并更名为“文小言”，定位“新搜索”智能助手。值得一提的是，百度改名的“文小言”，颇有“转战搜索”的意味。9月11日，字节也被爆出布局AI硬件的消息，开发与豆包大模型和豆包APP联动的智能耳机、智能眼镜，探索大模型与硬件结合的赛道。大家都在努力找杀手级场景，形成自己的特色能力。

AI对话现在像是一个天赋异禀但还在青春期的少年，有着无限的潜力，却还不知道如何施展自己的才华，正四处尝试。

但是，似乎行业的共识也正如周鸿祎所表达的，AI对话的未来不在于创造一个通用的超级助手，而在于为每个特定的人类需求打造契合的AI解决方案。也许这才是AI对话类产品，自己被用户新鲜感过后月抛，这一难题的的核心解决办法。

文章来自于“AI鲸选社”，作者“陈佳惠”。

草莓难救被“月抛”的AI对话产品？

AI浪潮席卷固态硬盘

关联网址

关联标签

#AI #AI工具 #大模型 #文心一言

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3660 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

183 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

草莓难救被“月抛”的AI对话产品？

9.11还是9.9大？AI界的亘古难题

多模态交互技术不够成熟，距离“Her”实现尚远？

AI对话还在寻找自己的killer feature

AI浪潮席卷固态硬盘

你不可错过的 OpenAI 新模型 O1 及公司关键发展里程碑介绍

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3660 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

183 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

草莓难救被“月抛”的AI对话产品？

9.11还是9.9大？AI界的亘古难题

多模态交互技术不够成熟，距离“Her”实现尚远？

AI对话还在寻找自己的killer feature

AI浪潮席卷固态硬盘

你不可错过的 OpenAI 新模型 O1 及公司关键发展里程碑介绍

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿