GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

2024-08-28 阅读 56 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

透个底，让美国政府安心

此前，关于草莓的传闻早已满天飞。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

今年夏天，Sam Altman的团队已经向美国国家安全官员展示了这项技术。

在安全问题日益敏感的情况下，OpenAI的做法也算给大家打了个样。

如果政府官员觉得这项AI不安全怎么办？那就给他们展示一下。

这次演示，就是OpenAI让政策制定者觉得更透明的努力的一部分。毕竟，如果他们感觉到受到这项技术的威胁了，很可能就会给公司带来麻烦。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

现在，OpenAI的安全团队已经出走，愤怒的前员工在网上大肆爆料，这种时候，对政府官员更加透明的做法，就显得尤为重要。

The Information表示，这次演示还可能另有目的：跟政府队员就如何保护技术进行对话，以防止美国的AI技术被他国窃取。

说不定，还可以借此机会攻击Meta一波，因为他们的AI是开放权重的，其他国家想要获取，是非常容易的事。

总之，未来几年内，AI开发者应该会经常出现在旧金山和华盛顿之间的航线上了，因为他们时不时就需要跟政府官员来往一下。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

草莓：数学提升，能解字谜

一个月前路透社曾报道，OpenAI内部测试了一种AI，在MATH基准上得分超过了90%。

据猜测，这个模型很可能就是草莓。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

如今的传言是，今年秋天OpenAI研究者会推出代号为草莓的新AI（也就是之前的Q*），或许会聊天到ChatGPT之类的聊天机器人中。

它能做到目前的聊天机器人无法做到的很多事情，比如解决未曾遇到的数学问题，还能解决编程难题。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

在获得额外「思考」时间后，草莓模型还可以回答更主观的问题，比如产品的营销策略。

据悉，在语言任务上，草莓表现出了强大的能力。比如OpenAI的一位员工曾向同事演示了草莓成功解决《纽约时报》的Connections——复杂的文字谜题。

OpenAI在LLM和会话AI领域的领先地位，一直在遭受冲击，因此OpenAI只能对外不时放出点草莓的消息，提升一下自己的存在感。

另外，据说草莓的技术已经显示出了智能体的能力。

草莓模型似乎能够自主浏览网络，像人类研究人员一样，独立上网、进行深度研究。

它不仅能生成答案，还能规划、执行一系列复杂任务，还能收集信息。

与之类似的，还有斯坦福的Quiet-STaR。

就像人类会在说话或写作前会停下来思考自己的想法一样，Quiet-STaR可以训练LLM去生成在复杂推理问题中采取步骤的内部「思考」，从而做出更好的决策。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

论文地址：https://arxiv.org/abs/2403.09629

眼下，OpenAI的业务正以惊人的速度增长：跟去年相比，今年它向企业销售LLM和ChatGPT订阅的收入大约增加了三倍，达到了每月2.83亿美元，尽管公司每月的亏损可能高于此。

目前，OpenAI的私人估值为860亿美元。

Sam Altman还希望为公司筹集更多资金，找到减少损失的方法。

自2019年以来，OpenAI已经从微软筹集了约130亿美元，与这家企业软件巨头的协议，会持续到2030年。

合作条款可能会发生变化，包括OpenAI向微软支付租用云服务器以开发AI的方式。

云服务器，是OpenAI最大的成本。

OpenAI的新希望：Orion（猎户座）

但说到底，OpenAI的前景终究还是依赖正在开发的新旗舰——Orion。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

有人能解释一下为什么OpenAI、谷歌和亚马逊一直用希腊神话来命名他们的模型吗？

去年初推出后，GPT-4已经被各家赶超得差不多了，现在GPT-4级的模型，可以说是各家人手一个。

有人猜，OpenAI可能会推出一个比原始草莓模型更小、更简化的模型，也就是蒸馏版。

这个版本被寄望于提升GPT-4和ChatGPT性能，目的是保持和更大模型相同的性能水平，而且更易于操作，成本更低。

另外，还有知情人士透露，OpenAI还在用更大的草莓版本，为Orion的训练生成数据。

这种人工合成数据，意味着草莓能帮助OpenAI克服获取高质量数据的限制，从而可以从现实世界数据（比如从互联网获取的文本或图像）中训练新模型。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

研究人员表示，使用草莓可以帮助Orion减少幻觉的产生。

这是因为，AI模型是从训练数据中学习的，所以它们看到的复杂推理的正确示例越多，就越好。

对此，智能体初创公司Minion AI的CEO兼GitHub Copilot前首席架构师Alex Graveley给予了高度厚望。

「想象一个没有幻觉的模型，一个你问它逻辑难题、它第一次就答对了的模型。」

「训练数据中存在较少的歧义，因此它的猜测更少。」

The Information猜测，草莓改进的推理能力，可能会整合到ChatGPT中。这些答案可能会更准确，但也可能更慢。

因此，草莓可能并不适合需要即时即时响应的应用。而在GitHub中修复非关键编码错误，则是理想的选择。

或许，以后的ChatGPT用户，可以根据请求的时间敏感性来切换草莓模型。

Sam Altman在五月的一次活动中曾表示：「我们感觉，为下一个模型准备的数据已经足够」。

这个模型，很可能指的是就Orion。Altman表示：「我们进行了各种实验，包括生成合成数据。」

解决复杂数学问题：有前景的应用

如果说目前AI最有前景的应用，那解决复杂数学问题，必然是其中一个了。

毕竟，现有的AI在数学密集的领域如航空航天和结构工程中，表现实在不佳。

各种LLM在回答数学问题时，往往会给出各种让人啼笑皆非的答案。

而且，数学推理能力的提升还能帮助AI模型更好地推理会话查询，比如用户的服务请求。

谷歌和一些初创公司，也在这方面发力。

上个月，谷歌DeepMind开发的AI，已经能在国际数学奥林匹克竞赛中击败大多数人类参赛者。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

OpenAI的另一大竞争对手Anthropic祭出的最新模型，也能编写更复杂的软件代码，还能回答有关图表和图形的问题，这些都要归功于它推理能力的改进。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

还有一些初创公司为了提高模型的推理能力，采用了一种廉价的技巧，将问题分解为更小的步骤，尽管这些方法速度慢且成本高昂。

无论Strawberry是否会作为产品推出，人们对Orion的期望都不会低了，因为OpenAI会力求继续保持领先地位，同时还要保证显著的的收入增长。

OpenAI的领先者优势，已经不明显了。

虽然在5月宣布了「Her」的版本，但谷歌却抢先推出了AI驱动的语音助手，后者也足够灵活，还能处理用户的打断，和突然变化的话题。

而Lmsys Chatbot Arena等大模型排行榜上，谷歌、xAI、Anthropic和Meta的模型也都在赶上OpenAI的步伐。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

Ilya看到了什么？

值得一提的是，「草莓之父」，其实就是已经离职了的OpenAI的首席科学家Ilya Sutskever。

几年前，Ilya启动了一个项目，在研究过程中，诞生了草莓。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

而在Ilya离职之前，OpenAI的研究人员Jakub Pachocki和Szymon Sidor，就已经在Ilya的工作基础上开发了一个新的数学求解模型Q*，这让不少关注AI安全的研究人员感到担忧。

另外，在去年Q*的前期准备中，OpenAI研究人员开发了一种被称为「测试时计算」的概念变体，目的是提升LLM的问题解决能力。

这样，LLM就会花更多时间考虑被要求执行的命令，或问题的各个部分。

当时，Ilya发表了一篇与这项工作相关的博客。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

博客地址：https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/

在博客中，模型解决了数个有难度的数学问题。

比如在这道有挑战性的三角函数题中，需要连续应用几个并不明显的等式。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

在这道题，GPT-4成功执行了一系列复杂的多项式分解。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

步骤5中使用的Sophie-Germain恒等式是重要的一步，可以被认为极有洞察力。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

在这道题的步骤7和8中，GPT-4开始执行猜测和检查。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

这也是模型可能产生幻觉的常见情况，LLM会声称某个特定的猜测是成功的，但实际上并不成功。

在这种情况下，奖励模型会验证每个步骤，并确定思路是否正确。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

在最后这道题中，模型成功地应用了多个三角恒等式，来简化了表达式。

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

或许，我们能从中窥见草莓和Orion的端倪。

文章来源于“新智元”

突围 AI 泡沫：SaaS的增量，还是幻象？

关联网址

关联标签

#AI #AI技术 #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

303 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

268 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

244 用户在看

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

透个底，让美国政府安心

草莓：数学提升，能解字谜

OpenAI的新希望：Orion（猎户座）

解决复杂数学问题：有前景的应用

Ilya看到了什么？

突围 AI 泡沫：SaaS的增量，还是幻象？

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

303 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

268 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

244 用户在看

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

透个底，让美国政府安心

草莓：数学提升，能解字谜

OpenAI的新希望：Orion（猎户座）

解决复杂数学问题：有前景的应用

Ilya看到了什么？

突围 AI 泡沫：SaaS的增量，还是幻象？

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿