OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

2024-09-13 阅读 35 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

热门

传闻已久、拖了又拖的OpenAI模型项目“草莓”，终于现身了。

北京时间9月13日凌晨，Open AI正式发布了其首款具有推理能力的模型，代号为OpenAI o1，包括无所不能的大哥o1-preview，和效率惊人的小弟o1-mini。

OpenAI的研究负责人Jerry Tework向The Verge透露：“o1使用了一种全新的优化算法和为其量身定制的新训练数据集。”也因此模型的命名并未延续GPT系列，而是“被命名为o1，以表示‘将计数器重置回1’。”

o1的革命性意义也正在于此——这代表了大模型能力在推理这条道路上的人新起点，而不是简单地作为GPT系列的延续。

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

来源：OpenAI

传闻已久的o1一经上线，就在X引发广泛讨论：评论区网友拍手叫好，AI圈网红Jim Fan依旧现身宣传。

并且Jim Fan还表示，o1的发布里程碑意义在于，它验证了此前所说的“两条曲线协同工作”理论，展示了训练计算和测试计算如何共同影响模型的最终性能。

传统的模型训练强调在训练时投入大量计算资源。而o1模型代表了一种新的AI模型开发范式。它强调了测试时计算（或推理时计算）的重要性——o1通过增加在测试/推理时的计算资源显著提高了模型性能。

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

来源：X

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

“休假中”的总裁Brockman，同样现身打Call 来源：X

如果说此前的模型是用“直觉”回答问题，那么o1给出的则是深思熟虑后的回答，这一改变来自于背后的“链式思考”（Chain-of-thought）机制。

用OpenAI研究主管Mark Chen的话说就是：“模型在学习自己思考，而不是试图模仿人类的思维方式。”

简单来说，o1在给出回答前会在“脑子”里进行一场内部对话，还会使用“让我想想”“我在考虑”等短语来展示思考过程。

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

模拟思考过程：“我很好奇”“我正在思考”“好的，让我看看” 来源：OpenAI

o1的表现究竟如何？用数据来说话：

数学方面，在2024年美国数学邀请赛（AIME）中，GPT-4o的平均正确率为12%（15道题解决1.8题），o1在首次尝试的平均正确率就达到了74%。通过使用集体决策和高级评分策略，o1的正确率最高可达93%。这一成绩不仅让o1跻身全美前500名优秀学生之列，还超过了美国数学奥林匹克竞赛的入选分数线。

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

来源：OpenAI

GPQA Diamond是一项专门评估化学、物理和生物等领域专业知识的测试。o1不仅完成了这项测试，还超越了拥有超越了部分拥有相关领域博士学位的人类专家，表明AI在特定专业领域的能力已经达到了一个新高度。

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

来源：OpenAI

编程方面，o1在国际信息学奥林匹克竞赛（IOI）中也表现卓越，在和人类参赛者相同的条件下，o1获得了213分的高分，位列参赛者的前50%。当限制进一步放宽（每个问题的提交次数从50提高到10000次），o1取得了362.14的高分，超越了金牌的获得门槛。

在模拟Codeforces平台的竞争性编程比赛中，o1获得了1807的高分，超越了93%的人类竞争者，这一成绩远远超过了GPT-4o（Elo评分为808，仅超过11%的人类竞争者）。

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

来源：OpenAI

简单来说，o1是一个非常善于思考、推理的大模型。并且，其运作机制与基于scaling law的大模型不同，这让它不必基于大量的计算消耗来提升性能，而是一个相当垂直的模型。

尽管o1模型展现出了卓越的能力，但仍然存在一些值得注意的局限性。

首先，在处理速度方面，o1可能不如其他模型迅速。

Thomson Reuters的副总裁Pablo Arredondo：“o1有时需要超过10秒才能回答一个问题，这在某些需要快速响应的场景中可能会成为一个问题。”

其次，相较于GPT-4o，o1在功能上还有一些欠缺——目前无法浏览网页，也不能处理文件和图像。

此外，o1不是一个多模态模型，这意味着它无法解析图像或音频输入。

在模型输出的质量方面，OpenAI承认o1存在一些挑战。根据技术论文中的反馈，o1似乎比GPT-4o更容易产生“幻觉”，即生成看似合理但实际上并不准确的信息。同时，o1似乎不如GPT-4o那样经常承认自己不知道答案，这可能会在某些情况下导致误导性的输出。

OpenAI官方特别建议将o1用于解决以下领域的复杂问题：科学、编码、数学和相关领域。

即日起，ChatGPT Plus和Team用户可以访问o1-preview和o1-mini；企业用户和Edu用户将于下周获得访问权限。OpenAI计划为所有ChatGPT免费用户提供o1-mini的访问权限，但尚未确定正式发布日期。

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

来源：X

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

来源：OpenAI

对于API访问，符合API使用等级5（已经支付1000美元并且超过30天）的开发者可以使用API中的两个模型进行原型设计，当前的速率限制为20次请求/分钟。此外，当前的API版本还不支持一些高级功能，如函数调用、流式处理和系统消息支持等。

在定价方面，在API中，o1-preview中每100万个token的输入价格为15美元，输出价格为60美元，较GPT-4o高出3-4倍。

文章来自于微信公众号“虞景霖”，作者“虞景霖”

OpenAI o1草莓模型：AI安全了，但看起来AI大模型公司更危险了

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

OpenAI o1草莓模型：AI安全了，但看起来AI大模型公司更危险了

当代版木牛流马？国外网友造出「会走路的桌子」，引百万人围观

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

OpenAI o1草莓模型：AI安全了，但看起来AI大模型公司更危险了

当代版木牛流马？国外网友造出「会走路的桌子」，引百万人围观

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿