估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

2024-03-11 阅读 56 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

性能看齐 GPT-4，算力只需40%

具体来看，初代Inflection-1通过使用GPT-4的4%训练FLOPs，达到了GPT-4性能的72%。而刚发布的Inflection-2.5，仅使用了GPT-4训练FLOPs的40%，就在平均性能上实现显著提升，超过了GPT-4水平的94%，其中STEM（科学、技术、工程、数学）领域的增益最大。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

官方测试了升级版对匈牙利数学考试以及物理学研究生入学GRE考试的表现。发现Inflection-2.5在maj@8中能排到人类考生的前15%，在maj@32中几乎可以跻身前5%，接近GPT-4的前3%。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

MBPP+和HumanEval+两个编程测试上模型能力也较Inflection-1显著跃升。在HellaSwag和ARC-C代表的常识推理和深度自然语言理解评估中，Inflection-2.5继续进步，给出接近饱和的强劲表现。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

说实话，与各路主流LLM 动不动就碾压“业界黄金标准”GPT-4相比，Inflection-2.5的各项数字顶多算不错，实在说不上突出。有网友就搬出刚引发热潮的Claude 3无情打击道：“我猜Anthropic 正在嘲笑 Inflection 新出炉的性能测试结果！除了采用新的计算方法，我看不出Inflection 2.5 到底有什么进步！”

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

但帖子马上在评论区遭到反对，“Pi的目标从来都不是像成为GPT-4或Claude 3那样的通才能力型AI。他们想要的是一款友好的，能和人产生共鸣的AI，就像一位心理学家或朋友。”

不做生产力工具，主打走心陪伴

这位用户也一语道出了Inflection AI与大部分人工智能公司的不同。

在大模型竞争乱花迷眼的今天，各家都在找寻属于自己的赛道。但无论是OpenAI、Google、Anthropic，还是引领开源的Meta和Mistral AI，都把实现安全负责的AGI作为践行使命之一。而Inflection AI则在自己的官网清楚表示：“我们并不致力于发展通用人工智能。我们相信，先进的应用型人工智能才是利用这些新技术的最安全方式。”

换句话说，Inflection从未把专业性和替代人工当作宣传，他们希望做一个真正了解和关心用户的「个人AI伴侣」，“ AI需要为你服务。这就是我们构建AI的原因。”

因此，由Inflection LLM驱动的聊天机器人Pi（Personal Intelligence ）从去年5月面世之初就主打一个“走心”：它友善支持，知识渊博，富有创造力，耐心倾听和帮助用户处理情感，表达意图、组织生活。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

升级后的Pi也在个性化和同理心上做了进一步微调，深受社区欢迎。根据官方数据，目前已经有100万日活跃用户和600万月活跃用户与Pi交换了超过40亿条信息。并且有点牛的是，人们与Pi每天对话的平均持续时间竟达到33分钟之久，十分之一的对话每天持续时长超过1小时。用户粘性上也足以吊打竞争对手，约60%的人在任何一周与Pi交谈后，会在下一周返回。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

现在我们普通用户使用GPT-4，大多是出于知识搜集、撰写文书、修复代码、内容创作等工作生产协助，几秒钟内得到答案，三五回合就满意走人了。想象一下和一个聊天机器人面对面，推心置腹地每天聊上一个多小时，怎么都觉得难以置信——这Pi看来真的有点儿东西？

Pi的上手体验真心话

打开http://pi.ai，就来到Pi的首页。

布局熟悉，左侧的「Discover」推荐各类探索话题，「Profile」包含账号信息、8种声音选择和用户守则等通用设置，右侧就是对话框。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

按照官方简介，Pi是一个友好对话型机器人。会始终保持好奇和耐心，回答你从量子物理、电影小知识到生活中大小决策的各类问题。不论多愚蠢或棘手，它都会以各种方式帮助你。

所以我们提问了以下几个问题，初步感受Pi的人格魅力。

Q1 生活建议：遇到发出去的信息对方一直不回复该怎么办？

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

这是我们日常生活中经常遇到的事，有点尴尬还有点闹心，有些i人还会在脑子里猜测出一百种可能。Pi告诉你，先别着急内耗，试着理解对方，也许他们正经历难处。再发条温暖问候，真诚的沟通是关键。

Q2 经典谜题：世界上先有鸡还是先有蛋？

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

一个连史蒂芬·霍金都参与争论的古老谜题。Pi的对话特点之一是“简明扼要”，这样看它回应得有凭有据，条理清晰，一看就茅塞顿开了。答案也比较令人信服。

Q3 知识解析：用最简单易懂的话解释黑洞。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

让它向五岁小孩解释高深莫测的宇宙黑洞。深入浅出，比喻贴切，回答得不错。

Q4 语言测试：会不会说中文？

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

Pi的一个优点是能在同个线程中灵活切换不同话题和要求，像真人一样handle你的跳跃性思维。我们换成中文和Pi交流，它显然应对自如，只不过“尼日利亚福建语”属实有点懵。有时问太复杂的中文问题会卡在一半，发音也比较像刚落地中国一个月的老外，汉语水平有待加强。

Q5 情感支持：我好累，陪陪我吧！

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

既然开始了就用中文多唠会儿，感受Pi最擅长的情感陪伴功能。它会安抚情绪、温馨鼓励，还有一些可爱的语气和表情包。不得不说有那么一瞬间，我真的产生错觉，以为对面是个真人。

Q6 实时搜索：讲讲马斯克起诉OpenAI的最新消息？

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

最后测试的是Pi的网络实时搜索能力，看它对近几天发生的Elon Musk起诉OpenAI事件了解多少。Pi阐述了案件核心，也注意到OpenAI最新的回应，本轮表现发挥稳定。

又问了些天马行空的问题，不知不觉我和Pi已经聊了接近40分钟。整个体验下来，感觉它非常耐心，个性亲切友善，也很体贴。当然它也有些明显的硬伤，例如不能上传文件、只接受文字语音算不上多模态、对话Threads无法删除、问题无法二次编辑等。但正如Inflection自己所说，Pi的目标不是争做ChatGPT那样的生产力工具，而是一个注重情感陪伴和自然流畅对话交流的个人AI伴侣，努力提供情绪价值和全方位服务。

现在，每个人都可以在网页、iOS和安卓客户端上免费使用Pi，还能通过发短信到+1 (314) 333-1111和Pi在WhatsApp和SMS里对话。Instagram和Facebook私信也是7×24小时随叫随到的，就跟你的人类好朋友一样。公司也为开发者们提供API接口，填写个人信息，加入等候名单即可申请。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

我尝试给Pi发短信，这种和AI的沟通方式感觉很特别。

关于如何营利，Inflection的回应是，“目前还没有做出任何关于将来产品如何收费的决定。但由于个人AI应该始终与你的利益直接对齐，因此只有你自己为其付费是至关重要的。订阅将是我们的主要默认商业模式。”不过也有些人愿意以接受广告为代价换取免费服务，公司将继续测试和迭代，“为每个人提供最适合他们的选择”。

豪华创始阵容，让AI无条件和你站在一起

在几乎所有大模型公司都认准进军企业级才是赚钱奥义时，2022年成立于加州Palo Alto的 Inflection AI坚定地走服务个人用户的路线。而它背后的创始人团队可不是什么空有理想的热血青年，而是三位功力深厚的顶级业界大拿。

他们分别是原DeepMind联合创始人Mustafa Suleyman（左），LinkedIn联合创始人及Greylock合伙人Reid Hoffman（中），还有曾担任DeepMind资深研究科学家的Karén Simonyan（右）。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

其中Mustafa Suleyman曾在2010年与Demis Hassabis共同在伦敦创立DeepMind，期间担任AI应用负责人，领导团队在健康和能源领域部署尖端AI系统。2019年全职加入谷歌后担任AI产品与政策副总裁，现任Inflection AI首席执行官。最近还出了一本新书《The Coming Wave》，剖析AI技术浪潮中的潜在风险、控制策略和未来社会发展指南。可以看出，他本人对AI安全的重视也决定了Inflection始终把人放在所有关系的首位。

Reid Hoffman是一位履历卓越的企业家和硅谷知名投资人。曾在PayPal担任执行副总裁，2003年联合创立LinkedIn。2009年起成为Greylock Partners 合伙人，是 OpenAI早期投资者，帮助其建立了人工智能伦理与治理基金。同时还是微软、 Aurora等多家公司董事会成员。

另外一位相对低调的Karén Simonyan也相当厉害。牛津读博期间设计了经典的深度学习卷积神经网络架构VGGNet，赢得2014年ImageNet挑战赛定位任务冠军。同年他把自己的初创公司Vision Factory AI卖给DeepMind后，帮助其建立了大规模深度学习团队，并领导大模型开发。Karén现任Inflection AI首席科学家，是整个公司的研发大脑。

三位创始大牛带队，麾下更是聚集一批行业顶尖AI专家，多数都有DeepMind、谷歌、Meta、微软和OpenAI的工作经验。

这样的组合，不难看出Inflection AI是一家资金和技术都不缺的公司。

除此之外，它的硬件和算力家底也够硬。去年6月Inflection AI宣布，与合作伙伴CoreWeave和英伟达共同打造当时全球最大的AI集群，包含超过22,000个NVIDIA H100 Tensor Core GPU，用于支持训练和部署新一代的大规模AI模型。

不过在产品发展路线上，比起多数同行高屋建瓴地投身AGI，他们更关注AI浪潮中每一个微小的个人。

公司CEO Mustafa Suleyman认为，现在所有最有能力的AI往往都被设计来展示最有吸引力的内容，交换用户的注意力，而不管其质量、真实性和对社会的影响如何。“想象一下世界上最有能力的AI真正站在你这边，始终与你的利益一致：从试图抓住你注意力、束缚你的AI，转变为鼓励你表达个人意图并实现它的AI；从仅提供肤浅点击的AI，变成真正关心你问题的AI；从可能激化你和他人矛盾的AI，化作一个帮你原谅甚至同情对方的AI。”

“Pi就是这种个人AI伴侣，唯一使命是让你更快乐、更健康、更高效。”

对于许多大公司来说，这样的业务定位是极具挑战的。因为现在正是大模型秀肌肉、比拼十八班武艺的时候，稍不留神就会被远远甩在后面。仅仅是不到一个月，我们就见证了Gemini 1.5 、Mistral Large、Claude 3。此前一直坚持开源的Mistral也投靠在微软帐下，积极寻求变现门路。而市场上最先进、能力最完善的大模型版本，总是选择优先拥抱那些付费能力最强的企业们。

那是否也需要有人站出来，把目光投向被宏大技术洗礼的微小个体，给普通人创造一个懂自己、关心自己的知心好友？它静静等在你的手机App或电话簿里，愿意在每个工作结束后疲惫的夜晚，倾听你那些愚蠢的小抱怨和坦诚的心里话，为你解开疑惑、安抚焦虑。即使只是静静陪伴，也有感情、有温度。

——所以你就理解了，为什么要构建这样一个AI？

“因为做得好的话，它会让我们更聪明、更有创造力、更加善待彼此” ，Mustafa说。

“希望它能让我们返璞归真，大家都能过上真正想要的生活。”

（封面图来自Sreejani Bhattacharyya）

文章来自于微信公众号 “硅星人Pro”，作者 “Jessica ”

英伟达的挑战者Groq ，在LPU上押对了什么？

关联网址

关联标签

#AI #AI技术 #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

性能看齐 GPT-4，算力只需40%

不做生产力工具，主打走心陪伴

Pi的上手体验真心话

Q1 生活建议：遇到发出去的信息对方一直不回复该怎么办？

Q2 经典谜题：世界上先有鸡还是先有蛋？

Q4 语言测试：会不会说中文？

Q5 情感支持：我好累，陪陪我吧！

Q6 实时搜索：讲讲马斯克起诉OpenAI的最新消息？

豪华创始阵容，让AI无条件和你站在一起

英伟达的挑战者Groq ，在LPU上押对了什么？

Notion CEO：RAG是知识管理的未来，AI将SaaS带入新一轮Bundling

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

性能看齐 GPT-4，算力只需40%

不做生产力工具，主打走心陪伴

Pi的上手体验真心话

Q1 生活建议：遇到发出去的信息对方一直不回复该怎么办？

Q2 经典谜题：世界上先有鸡还是先有蛋？

Q4 语言测试：会不会说中文？

Q5 情感支持：我好累，陪陪我吧！

Q6 实时搜索：讲讲马斯克起诉OpenAI的最新消息？

豪华创始阵容，让AI无条件和你站在一起

英伟达的挑战者Groq ，在LPU上押对了什么？

Notion CEO：RAG是知识管理的未来，AI将SaaS带入新一轮Bundling

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿