OpenAI发布全新o1模型：它会像人类一样“深思熟虑”

2024-09-13 阅读 48 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

1.打磨“思维链”

大模型一直因其“不会数数”而被诟病。究其根本，是因为大模型缺乏结构化推理的能力。

推理是人类智能的核心能力之一。而大模型主要通过非结构化的文本数据进行训练，这种数据通常包括新闻文章、书籍、网页文本等。文本是自然语言形式，不遵循严格的逻辑或结构化规则，所以模型学到的也主要是如何根据上下文生成语言，而不是如何逻辑推理或遵循固定的规则处理信息。

但许多复杂推理任务都是结构化的。

比如逻辑推断、数学问题解决或编程等。如果我们想要走出一个迷宫，就需要遵循一系列逻辑和空间规则才能找到出口。这类问题要求模型能够理解并应用一系列固定的步骤或规则，但这正是大部分大模型所缺乏的。

所以，像ChatGPT、BARD等模型虽能根据训练数据生成看似合理的回答，其实更像是“随即鹦鹉”（stochastic parroting），它们往往无法真正理解背后的复杂逻辑或执行高级推理任务。

要知道，大模型在处理非结构化的自然语言文本时表现出色，原于这正是训练数据的侧重点。但当涉及到需要结构化逻辑推理的任务时，它们往往难以表现得像人类一样精确。

为解决这一难题，OpenAI想到了用思维链（Chain of Thought, CoT）来“破局”。

思维链是一种帮助AI模型进行推理的技术。它通过让模型在回答复杂问题时，逐步解释每一步的推理过程，而不是直接给出答案。因此模型在回答问题时就像是人类在解题时那样，先思考每一步的逻辑，再逐步推导出最终的结果。

但在AI训练的过程中，人工标注思维链耗时又昂贵，在scaling law主导下所需的数据量对人工而言基本是一项不可能完成的任务。

这时，强化学习就成了更实用的替代方案。

强化学习可以让模型通过实践和试错自己学习，它不需要人工标注具体每一步怎么走，而是通过不断的实验和反馈来优化解决问题的方法。

具体来说，就是模型在尝试解决问题的过程中，根据所采取行动的结果（好的或坏的）来调整自己的行为。这样，模型能够自主探索多种可能的解决方案，并通过不断试错找到最有效的方法。比如在游戏或模拟环境中，AI可以通过自我对弈不断优化策略，最终学会如何精确执行复杂任务，而无需人工逐一指导每一步。

比如2016年横扫围棋界的AlphaGo，它就是结合了深度学习和强化学习的方法，通过大量的自我对弈来不断优化其决策模型，最终能够战胜世界顶级的围棋选手李世石。

o1模型就是用和AlphaGo“同门”的方法逐步处理问题。

在这个过程中，o1通过强化学习不断完善自己的思考过程，学会识别和纠正错误，将复杂步骤分解为更简单的部分，并在遇到障碍时尝试新的方法。这种训练方式显著提升了o1的推理能力，让o1能够更有效地解决问题。

OpenAI的联合创始人之一格雷格·布罗克曼（Greg Brockman）对此感到“十分自豪”，“这是我们首次使用强化学习训练的模型。”他说道。

OpenAI发布全新o1模型：它会像人类一样“深思熟虑”

布罗克曼的推文切片，来源：X

布罗克曼介绍，OpenAI的模型原先进行的是系统一型思维（快速、直观的决策）而思维链技术则启动了系统二型思维（慎重、分析性的思考）。

系统一型思维适合快速应对，而系统二型思维则通过“思维链”技术，让模型能够逐步推理解决问题。实践表明，通过持续的试错，从头到尾完整训练模型（如在围棋或Dota等游戏中应用），可以极大提升模型的表现。

此外，o1技术虽然仍在开发初期，但已在安全性方面表现良好。如通过增强模型对策略进行深入推理来提高其对抗攻击的鲁棒性和降低幻觉现象的风险。这种深层次的推理能力已经开始在安全性评估中显示出积极的效果。

“我们基于o1模型开发了一个新的模型，让它参加了2024年国际信息学奥林匹克(IOI)比赛，并在49%的排名中得到了213分。”OpenAI方表示。

它在与人类参赛者相同的条件下参赛，解决六个算法问题，每个问题有50次提交机会。通过筛选多个候选方案并根据公开测试用例、模型生成的测试用例和评分函数来选择提交方案，证明了其选择策略的有效性，平均得分高于随机提交的分数。

在提交次数放宽到每题10,000次时，模型表现得更好，得分超过了金牌标准。最后，这个模型在模拟的Codeforces编程比赛中展示了“令人惊叹”的编码能力。GPT-4o的Elo等级为808，位于人类竞争者的第11百分位。而我们的新模型Elo等级为1807，表现优于93%的竞争者。

OpenAI发布全新o1模型：它会像人类一样“深思熟虑”

在编程竞赛中进一步的微调提升了o1模型的表现，来源：OpenAI

2.“多事之秋”的OpenAI

在o1发布前，OpenAI一直深陷公司核心高层变动的阴云中。

今年2月，OpenAI的创始成员、研究科学家安德烈·卡帕斯（Andrej Karpathy）在X上宣布，他已离开这家公司。卡帕斯表示，他友好地离开了OpenAI，“不是因为任何特定的事件、问题或戏剧性事件”。

前首席科学家、联合创始人伊利亚·苏茨克维（Ilya Sutskever）则在5月宣告离职，超级对齐团队也随之解散，业内认为这是OpenAI在追求技术突破和确保AI安全之间平衡的失败尝试。

OpenAI发布全新o1模型：它会像人类一样“深思熟虑”

右起分别是伊利亚·苏茨克维、格雷格·布洛克曼 (Greg Brockman)、山姆·奥尔特曼和米拉·穆拉蒂。来源：纽约时报

在伊利亚发布通告的数小时后，RLHF发明者之一、超级对齐团队的共同主管简·雷克（Jan Leike）也追随他的脚步一起离开，再次给OpenAI的未来增加了更多的不确定性。

8月，OpenAI联合创始人、研究科学家约翰·舒尔曼（John Schulman）透露了自己的离职，并加入Anthropic专注于AI对齐的深入研究。他解释说，离职是为了聚焦于AI对齐和技术工作，并非因为OpenAI不支持对齐研究。舒尔曼感谢了在OpenAI的同事，并对它未来的发展“充满信心”。

而Anthropic正是由2020年离职的OpenAI的研究副总裁达里奥·阿莫蒂（Dario Amodei），和时任安全与政策副总裁丹妮拉·阿莫蒂（Daniela Amodei）兄妹创办的。

布罗克曼也在同月宣布休假一年，这是他自9年前共同创立OpenAI以来的“第一次长假”。

9月10日，领导OpenAI GPT-4o和GPT-5模型音频交互研究的亚历西斯·克努亚（Alexis Conneau）宣布离职并创业，克努亚的研究致力于实现电影《Her》中展示的那种自然语音交互体验，但相关产品的发布却一再延迟。

OpenAI自成立以来，就因其非营利和商业化的双重身份而备受关注。随着商业化化进程的加速，内部关于其非营利使命的紧张关系日益明显，这也是团队成员流失的一个原因。同时埃隆·马斯克（Elon Musk）最近的一起诉讼可能也与人员流失有关。

OpenAI研究员丹尼尔·科科塔洛（Daniel Kokotajlo）在离职后接受媒体专访时表示，去年发生的“宫斗”事件中，奥尔特曼被短暂解雇后迅速复职，专注于AGI安全的三名董事会成员被撤换。“这使得奥尔特曼和布罗克曼进一步巩固了权力，而主要关注AGI安全的人被边缘化。（奥尔特曼）他们背离了公司在2022年制定的计划”。

此外，OpenAI面临高达50亿美元的预计亏损，运营成本高达85亿美元，其中大部分为服务器租用和训练成本。为应对高昂的运营压力，OpenAI正在谋求新一轮融资，估值可能超过1000亿美元，微软、苹果和英伟达等潜在投资者表达了兴趣。公司高管正在全球范围内寻求投资以支持其快速发展的资金需求。

为了缓解财务压力，OpenAI正在寻求新一轮的融资，据《纽约时报》11日报道，OpenAI上周还希望以1000亿美元估值融资大约10亿美元。但因构建大型AI系统所需算力将导致更大开支，该公司近日决定调高融资额度到65亿美元。

但有外媒援引知情人士以及未公开的内部财务数据分析称，OpenAI今年可能面临高达50亿美元的巨额亏损，总运营成本预计达到85亿美元。其中向微软租用服务器的费用高达40亿美元，数据训练成本则是30亿美元。由于更先进的模型如Strawberry和Orion的运行成本更高，公司的经济压力进一步加大。

文章来自于微信公众号“甲子光年”，作者“苏霍伊”

OpenAI 65亿融资成形，估值暴涨至1500亿美元！微软苹果英伟达相继「输血」

关联网址

关联标签

#AI #AI模型 #大模型 #技术突破

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

OpenAI发布全新o1模型：它会像人类一样“深思熟虑”

1.打磨“思维链”

2.“多事之秋”的OpenAI

OpenAI 65亿融资成形，估值暴涨至1500亿美元！微软苹果英伟达相继「输血」

AI搜索创企Glean融资2.6亿美元，定位企业版谷歌，1年内业务增长3倍

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

OpenAI发布全新o1模型：它会像人类一样“深思熟虑”

1.打磨“思维链”

2.“多事之秋”的OpenAI

OpenAI 65亿融资成形，估值暴涨至1500亿美元！微软苹果英伟达相继「输血」

AI搜索创企Glean融资2.6亿美元，定位企业版谷歌，1年内业务增长3倍

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿