OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!
9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。
OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。
OpenAI 的 API 负责人发文称:「如果你过去有个产品想法,当时的模型不太行,不够智能,现在你再试试」。
在权限开放方面,OpenAI 采取了分阶段推广策略。
- ChatGPT Plus 和 Team 用户可以立即访问 o1-preview 和 o1-mini。
- Enterprise 和 Edu 用户将在下周获得访问权。
- API 使用等级 5(已消费 1,000 美元且自首次付款以来已超过 30 天)的开发者,今日起可使用这两款模型,速率限制为 20 RPM。
- OpenAI 还计划在未来向所有 ChatGPT 的免费用户开放 o1-mini 的使用权。
对于开发者而言,通过 API 使用 o1 的成本不便宜。o1-preview 的定价为每百万输入 token 15 美元,每百万输出 token 60 美元,远高于 GPT-4o 的定价(输入 5 美元/百万 token,输出 15 美元/百万 token)。
01
OpenAI 员工:
o1 重新定义了游戏规则
在 OpenAI 员工的推文中,可以看到他们对于 o1 能力的赞许,以及一些关键的能力升级要点。
OpenAI API 负责人 Michelle Pokrass 推文:
o1-preview 和 o1-mini 模型已经上线。它们是我们目前为止在推理方面表现最佳的模型,我们相信它们将为 API 解锁全新的应用场景。
如果你有一个产品创意,但时机尚未成熟,模型还不够智能——不妨再次尝试。
这些新模型并不能完全替代 4o。
你需要以不同的方式进行提示,并以新的方式构建你的应用程序,但我们认为它们将有助于缩小智能差距,帮助你开发出更好的产品。
(现在为 API 第五级用户推出,用户也将很快可以使用)
Greg Brockman 的推文:
OpenAI o1—我们第一个通过强化学习训练的模型,在回答问题之前会深入思考。团队的工作令人非常自豪!
这是一个充满巨大机遇的新范式。这一点在定量上(例如推理指标已经显著提升)和定性上(例如忠实的思维链使模型易于理解,因为它允许你以简单的英语「阅读模型的思维」)都很明显。
可以这样理解,我们的模型进行系统 I 思考,而思维链则解锁了系统 II 思考。人们已经发现,提示模型「一步步思考」可以提升性能。但是通过试错来训练模型,从头到尾这样做,则更为可靠,并且——正如我们在围棋或 Dota 等游戏中所见——可以产生极其令人印象深刻的结果。
o1 技术仍处于早期阶段。它提供了新的安全机会,我们正在积极探索,包括可靠性、幻觉和对抗攻击者的鲁棒性。例如,我们已经看到,通过思维链让模型推理策略,我们的安全指标有了很大的提升。
其准确性也有很大的改进空间——例如,从我们的发布帖子来看,我们的模型在今年的编程奥林匹克竞赛(IOI)中,在人类条件下(每个问题 50 次提交)取得了第 49 百分位/213 分。但是,如果允许模型问题提交 10000 次,模型取得了 32.14 分——超过了金牌门槛。因此,模型能够产生比最初看起来更大的输出。
OpenAI 研究员 Jason Wei 的推文:
o1 是一个在给出最终答案之前会进行思考的模型。用我自己的话来描述,以下是对人工智能领域最大的更新:
- 不要仅仅通过提示来执行思维链,而是使用强化学习训练模型以更好地进行思维链。
- 在深度学习的历史中,我们一直试图扩展训练计算,但思维链是一种自适应计算,也可以在推理时进行扩展。
- AIME 和 GPQA 的结果非常强大,但这并不一定转化为用户可以感受到的东西。即使是工作的人,也很难找到 GPT-4o 失败、o1 表现良好并且我可以评分的提示切片。但当你找到这样的提示时,o1 感觉完全像魔法一样。我们都需要找到更难的提示。
- 使用人类语言进行思维链的 AI 模型在很多方面都很棒。模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤,识别和纠正错误,以及尝试不同的方法。强烈鼓励每个人都去看看博客文章中的思维链例子。
游戏规则已经完全被重新定义了。
02
AI 能力的新飞跃,
所以取名 o1
o1 采用强化学习技术进行训练,专门设计用于处理复杂的推理任务。与传统模型不同,o1 具有”深思熟虑”的能力——在给出最终回答之前,它能够在内部进行长链条的逻辑推理和思考过程,从而确保回应的质量和深度。
通过精心设计的训练过程,这些模型不仅学会了如何优化思考过程,还能灵活运用不同的问题解决策略,并且具备自我纠错的能力。
测试结果令人振奋。在即将推出的模型更新中,它在物理、化学和生物学等领域的复杂基准测试中,表现堪比博士生水平。
特别值得一提的是,它在数学和编程方面的表现尤为出色。举例来说,在国际数学奥林匹克(IMO)的资格考试中,我们的新推理模型正确解答了 83% 的问题,远超 GPT-4o 的 13%。在编程能力方面,通过 Codeforces 竞赛的评估,新模型的表现超过了 89% 的参赛者。
作为一个处于早期阶段的模型,它目前还不具备 ChatGPT 的一些实用功能,如网络浏览、文件上传和图像处理等,它在世界事实知识方面的表现也不如后者。短期内,对于日常应用场景,GPT-4o 可能仍然更为实用。
然而,在复杂推理任务方面,这个新模型代表了 AI 能力的一个重大飞跃。基于这一突破性进展,我们决定将计数器重置为 1,并将这个全新的模型系列命名为 OpenAI o1,以彰显其开创性意义。
我们开发了一种创新的大规模强化学习算法,这种算法能够在高效利用数据的同时,有效地训练模型运用其思维链进行富有成效的推理。这种训练方法的核心在于教会模型”如何思考”,而不仅仅是存储和检索信息。
通过持续的研究,我们发现了两个关键因素能显著提升 o1 模型的性能:
- 增加强化学习的计算量(即训练阶段的计算资源投入)
- 延长模型的”思考时间”(即在测试或应用阶段给予模型更多的计算时间)
这种方法在扩展性方面表现出了与传统大语言模型预训练截然不同的特点。传统的预训练主要受限于海量文本数据的获取和处理,而我们的方法更多地依赖于计算资源和算法优化。目前,我们正深入研究这种新方法的扩展限制,以期在未来取得更大的突破。
o1 的性能随着训练时计算和测试时计算的增加而平稳提升。
03
数学:全面碾压 4o,
成绩跻身全美前 500 名之列
为了凸显 o1 模型在推理能力上相比 GPT-4o 的显著进步,我们设计了一套全面而严格的评估方案。这个方案包括了各种人类专业考试和机器学习领域公认的基准测试,涵盖了广泛的知识领域和复杂的推理任务。
测试结果令人振奋:在绝大多数需要深度思考和复杂推理的任务中,o1 模型都展现出了明显优于 GPT-4o 的表现。这一结果有力地证明了 o1 在处理高难度、需要多步推理的问题时的卓越能力。
值得注意的是,除非我们特别说明,所有针对 o1 的评估都是在最大化测试时间计算资源的情况下进行的。这意味着我们充分发挥了 o1 模型的潜力,让它有足够的”思考时间”来处理这些复杂任务。
o1 在具有挑战性的推理基准测试中显著优于 GPT-4o。实心条表示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)性能。
o1 在广泛的基准测试中超越了 GPT-4o,涵盖了 57 个 MMLU 子类别中的 54 个。
o1 模型在众多需要复杂推理能力的基准测试中展现出了与人类专家相当的水平,这一成就令人瞩目。值得注意的是,近期一些顶尖的 AI 模型在 MATH2 和 GSM8K 等传统数学测试中的表现已经如此出色,以至于这些测试不再能有效地区分不同模型的能力。
为了更严格地评估 o1 的数学能力,我们选择了美国数学邀请赛(AIME)作为测试基准。AIME 是专为挑战美国最优秀的高中数学生而设计的高难度考试,能够更好地测试模型的极限能力。
在 2024 年的 AIME 考试中,我们对比了 o1 和 GPT-4o 的表现:
- GPT-4o 的表现:平均只能解决 12% 的问题(15 题中的 1.8 题)。
- o1 的表现:
- 单次尝试:平均解决 74% 的问题(15 题中的 11.1 题)
- 64 次采样取共识:正确率提升至 83%(15 题中的 12.5 题)
- 1000 次采样后使用学习型评分函数重新排序:正确率高达 93%(15 题中的 13.9 题)
o1 的最佳成绩 13.9 分是一个令人惊叹的结果。这一分数不仅使 o1 跻身全美前 500 名的优秀学生行列,更是超过了美国数学奥林匹克竞赛的入选分数线。这意味着,如果 o1 是一名高中生,它的数学能力足以让它有资格参加美国最高级别的数学竞赛。
我们进一步将 o1 模型应用于 GPQA diamond 测试,这是一个极具挑战性的智能基准测试,专门用于评估模型在化学、物理和生物学等领域的专业知识水平。为了进行公平的人机对比,我们特别邀请了拥有相关领域博士学位的专家参与测试。
测试结果令人振奋:o1 不仅成功完成了测试,更是超越了人类专家的表现,成为首个在 GPQA diamond 基准上击败人类专家的 AI 模型。这一突破性成就标志着 AI 在特定专业领域的能力已经达到了一个新的高度。
然而,我们需要谨慎地解读这一结果。o1 超越人类专家的表现并不意味着它在所有方面都比拥有博士学位的专家更强。相反,这表明 o1 在解决某些特定类型的问题上——即那些通常需要博士级专业知识的问题——展现出了非凡的熟练度和效率。
除 GPQA diamond 外,o1 在其他多个机器学习基准测试中也取得了突破性进展,推动了行业的技术前沿:
- 在启用视觉感知能力的情况下,o1 在 MMMU(多模态理解)测试中获得了 78.2% 的高分。这一成绩使 o1 成为首个能够与人类专家在该领域展开竞争的 AI 模型,展示了其在多模态任务中的卓越表现。
- 在 MMLU(大规模多任务语言理解)测试中,o1 的表现更是令人瞩目。在总计 57 个子类别中,o1 在 54 个类别上都超越了 GPT-4o 的表现。这一结果充分证明了 o1 在广泛的知识领域和任务类型中的全面优势。
这些测试结果共同描绘了 o1 模型的全面能力图谱:它不仅在专业领域的深度知识上能与人类专家比肩,还在广泛的知识领域和多模态任务中展现出了优异的表现。这些成就标志着 AI 技术在通用智能和专业领域应用方面都取得了重大突破,为未来 AI 在更多复杂任务中的应用开辟了新的可能性。
04
编程:编程竞赛优于 93% 的参赛者
我们基于 o1 模型进行了深度优化和专项训练,成功开发出了一个在编程领域表现卓越的 AI 模型。这个模型在 2024 年国际信息学奥林匹克竞赛(IOI)中展现了令人瞩目的实力,不仅获得了 213 分的高分,还跻身参赛者的前 50%,这一成绩充分证明了 AI 在高难度编程任务中的潜力。
比赛设置与挑战:
- 竞赛环境:AI 模型与人类参赛者在完全相同的条件下参加比赛。
- 任务难度:需要在 10 小时内解决 6 个高难度算法问题。
- 提交限制:每个问题允许 50 次提交机会。
我们开发了一套独特的测试时选择策略,显著提升了模型的竞争力:
- 多样化采样:系统为每个问题生成大量候选解决方案。
- 智能筛选:基于 IOI 公开测试用例、模型自生成的测试用例以及专门设计的评分函数,从中选出最优的 50 个解决方案提交。
- 策略效果:与随机提交相比,这一策略平均提升了近 60 分,充分证明了其在严格的竞赛环境中的价值。
突破性表现:
- 放宽限制后的惊人成绩:当每题允许 10,000 次提交时,即使没有使用任何测试时选择策略,模型也取得了 362.14 分的高分,超越了金牌获得的门槛。这一结果展示了模型在更宽松条件下的潜力。
- 在 Codeforces 平台的卓越表现:
- 模拟环境:我们在 Codeforces 平台上模拟了真实的竞争性编程比赛,严格遵循比赛规则,每题允许 10 次提交。
- 惊人突破:我们的新模型获得了 1807 的 Elo 评分,超越了 93% 的人类竞争者。
- 显著进步:相比之下,GPT-4o 的 Elo 评分为 808,仅超过 11% 的人类竞争者。新模型不仅大幅超越了 GPT-4o,还远远超过了 o1 的表现。
这些结果清晰地展示了我们的 AI 模型在编程领域取得的重大突破。它不仅能在世界顶级的编程竞赛中与人类专家同台竞技,更在某些方面展现出超越人类的潜力。
通过在编程竞赛上进一步微调改进了 o1。在竞赛规则下,改进后的模型在 2024 年国际信息学奥林匹克竞赛中排名在第 49 百分位。
05
人类偏好评估:
文本生成 4o 仍占优势
为了全面评估 AI 模型的实际应用效果,我们不仅关注传统的考试成绩和学术基准,还进行了一项创新的人类偏好评估。这项评估旨在比较 o1-preview 和 GPT-4o 两个模型在处理各种领域复杂、开放性问题时的表现。
评估方法:
- 范围广泛:涵盖了多个不同领域的挑战性问题。
- 开放式提示:使用开放性问题来测试模型的灵活性和创造力。
- 匿名对比:向人类评估者展示两个模型的匿名回答。
- 人工判断:由经过培训的人类专家投票选择他们认为更优秀的回答。
关键发现:
- o1-preview 的优势领域:
- 在需要深度推理能力的领域中,o1-preview 表现出色,大幅领先于 GPT-4o。
- 这些领域主要包括:数据分析、编程和数学。
- 优势明显,显示出 o1-preview 在处理复杂逻辑和抽象思维方面的卓越能力。
- GPT-4o 的优势领域:
- 在某些自然语言处理任务中,GPT-4o 仍然保持优势。
- 这表明语言模型在处理日常交流、文本生成等任务时可能更有优势。
- 模型适用性的差异:
- o1-preview 虽然在某些领域表现出色,但并非全能。
- 这一发现强调了不同 AI 模型在不同任务中的专长,暗示了未来 AI 应用可能需要任务特定的模型选择。
结论:这项评估不仅展示了 o1-preview 在处理复杂推理任务时的优越性,也揭示了 AI 模型能力的多样性。它提醒我们,在选择和应用 AI 模型时,需要根据具体任务和场景来选择最合适的工具。同时,这也为未来 AI 模型的开发提供了方向,即如何在保持强大推理能力的同时,提升在自然语言处理等领域的表现。
06
幻觉没有解决,
但思维链很强大
在 AI 领域,”思维链”(Chain of Thought)是一个重要概念,它代表了 AI 模型在生成答案时的内部推理过程。这个过程就像人类的思考过程一样,包含了从问题到解决方案的一系列逻辑步骤。o1 运用”思维链”(chain of thought)方法来处理复杂任务。这种方法不仅模仿了人类的思考模式,还通过先进的强化学习技术不断优化和提升。
o1 的学习过程体现了多个关键特点:
- 思维链优化:通过强化学习,o1 不断完善其思维链,提升解决问题的策略。
- 错误识别与纠正:o1 具备自我检查的能力,能够识别并纠正在推理过程中出现的错误。
- 问题分解能力:面对复杂问题时,o1 学会了将其分解为更简单、更易处理的子问题。
- 灵活的方法转换:当发现当前方法无效时,o1 能够灵活地转换思路,尝试新的解决方案。
这种多层次、自适应的学习过程极大地提升了 o1 的推理能力,使其在处理复杂问题时展现出近乎人类的灵活性和创造性。
诸如「我对……感到好奇」、「我正在思考」和「好的,让我看看」这样的短语,呈现一种思考的感觉。
思维链的潜在价值:
- 模型监控:通过分析思维链,我们可以深入了解 AI 的”思考方式”。
- 安全保障:未来可能利用思维链检测 AI 是否试图操纵用户。
- 透明度:为 AI 决策提供解释性,增加其可信度。
尽管思维链具有上述潜在价值,我们还是决定不向用户直接展示原始思维链。这个决定基于以下考虑:
- 用户体验:原始思维链可能复杂难懂,影响用户体验。
- 竞争优势:保护核心技术细节。
- 监控灵活性:保留未来进行思维链监控的选项。
- 安全考虑:防止未经过滤的、可能存在问题的思维过程直接暴露给用户。
为了在隐藏思维链和提供有价值信息之间取得平衡,我们采取了以下措施:
- 智能提取:训练模型从思维链中提取有用信息并融入最终回答。
- 摘要生成:对于 o1 模型系列,我们提供由模型生成的思维链摘要,既保留了关键信息,又避免了原始数据的直接暴露。
07
o1 最适合哪些领域
这一代模型凭借其卓越的推理能力,将为多个领域的专业人士带来显著助益,尤其是那些在科学研究、软件开发、数学计算等领域面临复杂挑战的人。让我们来看几个具体的应用场景:
- 医疗研究领域:生物信息学家可以利用 o1 来协助细胞测序数据的注释工作,大大提高基因组研究的效率。
- 物理学研究:在量子光学这样的前沿领域,物理学家可以借助 o1 生成复杂的数学公式,加速理论研究和实验设计。
- 软件开发:不论是哪个行业的开发者,都可以利用 o1 来构建和执行多步骤的工作流程,简化复杂的编程任务。
总的来说,o1 模型为那些需要处理高度复杂问题、进行深度分析或创新研究的专业人士提供了强大的智能辅助工具。
文章来源“Founder Park”,作者“Founder Park”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则