行业先锋
文章详情

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

2024-09-15 阅读 35 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

热门

好家伙，OpenAI 终于上新了！

9月13日凌晨，OpenAI 发布了最新系列模型 OpenAI o1，也就是吹了很久的“Strawberry 模型????”，OpenAI 的 o1 是一系列新的 AI 模型，专门为解决复杂问题而生。在多种平台上超越了所有之前的版本，甚至超过了许多人类，比如美国数学奥林匹克（AIME）、GPQA 评估和 Codeforces，目前已上线 o1-Preview、o1-mini。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

首个版本是预览版，不仅推理、科学、编程和数学能力强了一大截；更重要的它不是直接回答，而是主动先思考后再回答。就相当于在生成回应之前，投入更多时间进行思考，再做答。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

目前，ChatGPT Plus 和 Team 用户已经可以在 ChatGPT 网页版中访问 o1 模型，Enterprise 和 Edu 用户下周也能用上。没有会员的朋友们可以期待一下，OpenAI 官方会继续研发计划向所有 ChatGPT 免费用户提供 o1-mini 访问权限。

收到消息后，第一时间就打开 ChatGPT，能直接使用 o1-Preview、o1-mini，还不错。

要知道一直以来，大模型都是文科生，在数学问题上都显得很智障。除非有非常非常清晰的提示，否则很难答对。

很多模型都栽在了最简单的比大小问题上，看官方介绍 o1 更新着重在推理（科学、数学、编码）上下了不少功夫，那咱们拭目以待。

先做道 AIME 2024年竞赛题

根据官方报告，在许多需要推理的测试中，o1 的表现已经达到了人类专家的水平，推理准确性超过博士生。

由于目前处于模型训练的早期阶段，常见功能基本都还没上，也没有多模态能力，无法上传图片，暂时就选择文字题目进行提问。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

下面是一道 AIME 2024年竞赛的题目，一项专门为美国顶尖高中数学学生设立的挑战性考试，看看 o1 怎么答。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

这么高难度的题，o1 思考了15秒，就解出来了。

对照答案，完全正确，分别是0.4h 和 204min。

要知道之前除了 Deepmind 的专业大模型有可能答对以外，其他的基本全军覆没。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

o1 思考到生成

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

这道题有两种解法，感兴趣的朋友可参考详细解题步骤及视频：

https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_1

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

既然 o1 能做顶尖数学竞赛，也能做高考理科真题。以前每每做高考真题，答案往往只有孤零零的数字一个，想研究吧，没参考。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

那我们不如让 o1 解高考真题，给广大学子提供下新的解题思路。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

2024年高考物理真题（北京卷）真题及答案

o1-preview 用了26秒得出答案，而且整个过程非常详细，推理也很到位。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

详细解答：

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

再来看一道化学题：

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

o1-preview 9秒就答出来了，而且有详细的分析思路，不太友好的时候发现是英文。在提问的时候，发现它的输出不太稳定，有时英文，有时中文，如果真用的话还是要谨慎参考。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

o1-preview

反观 GPT-4o，回答则错误，对于这道化学题，一本正经地胡说八道。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

GPT-4o

退休年龄计算

最近关于渐进式延迟法定退休年龄的办法引起大家广泛讨论，退休规则比较复杂。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

咱用 o1 试试，算一下具体的退休时间。假设阿琴是1978年6月出生的，她将会在哪年哪月退休？

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

o1 在一分钟内计算出了，阿琴将在2030年6月，也就是51周岁10个月时正式退休。

对比退休年龄对照表，确实准确无误！

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

其他更有趣的例子放在了视频里：

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

三个其实 o1-preview 的可玩性还是很高的

很多人不喜欢理科是因为枯燥的概念，干巴巴的数字，做实验有难度，根本学也学不明白。现在的通过引导AI一步步把实验可视化，想要实现需要逻辑推理、数学计算和大量编码。在 o1 出来之前，很多大模型同时不具备这些能力。今天我们来尝试一下。

实验一：蛋白质构建模拟器

记得以前上学，生物学里生命的核心是蛋白质，它能进行多种组合，但想要每个蛋白质不太现实，这时候AI可就能发挥大作用，我们做一个蛋白质构建模拟器。（提示词放在文末，可自取）

o1 整个思考只用了6秒，理解了生物和编程结合的需求之后，开始梳理步骤，整个思路非常的清晰明了。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

第一次提问后，我让它帮我输出完整完整可运行的代码，方便省事。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

o1思考9秒后，直接生成了完整的代码，我挺惊讶的，很难想象这是2次对话，几分钟就实现的效果。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

要知道，这个效果涉及到编程的前端和后端，对于编程小白可真的太友好了！

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

在模拟器中，我们可以把不同的氨基酸添加组合形成新的氨基酸，效果初见雏形。可见，它一次性生成的代码还是有点东西的，瞬间减轻不少蛋白质名字记忆的难度，对于识别蛋白质和创造新的蛋白质真的很有用。

实验二：太阳系运转

先快速复习一下我们的太阳系：由 8 颗行星组成：水星、金星、地球、火星、木星、天王星、土星和海王星。太阳位于我们太阳系的中心，行星围绕它旋转。如果想要实现一个动画，通过改变行星的半径或太阳的质量，来可视化行星速度的变化。（提示词放在文末，可自取）

它思考花了26秒，意识到需要使用与物理、数学和编码相关的概念来生成输出。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

在几轮对话明确想法后，o1 结合了提示词每一步背后的逻辑，将物理和数学合并，把几个视觉元素翻译成合适的代码。初步看来，运行代码后效果还不错，八大行星和和恒星都有，行星轨迹若隐若现。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

拨动不同的滑块，能看到不同的效果，对于做实验来说，妥妥够用了。

乍一看以为是静态的，过了几分钟后发现是动态的，下面是几分钟运行加速后的效果，可以看到八大行星都在正常运转，每个的速度也不同，并且大小也不同。

略显不足的是，离太阳比较近的几颗行星，运行范围太小了，以至于都太阳挡住看不清。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

本想再优化一下上面两个实验，看来只能能到一周后了。30分钟得到这样的效果，已经非常满意了。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

最后

可能你也发现了，之前我们要一步步把一个问题拆分成很多步骤，精确到一步步引导，GPT才能理解并精准回答。

现在不用，o1 出生自己就会。在编程、数学等领域，开始展现出接近人类的思维过程。

实测OpenAI的o1：真没吹牛，奥数题高考题都能信手拈来了？

要我看，o1 学会思考后，越来越像人了，说不定，明年这个时候，我就被它完全打败了，毕竟谁还不想有个会说能写、思路清晰的 AI 脑子呢？

在这些测试中，o1 展现出了强大的推理能力，但仍然存在输出不稳定的问题。

尽管不稳定、功能尚未全面上线，但o1 系列模型已经为我们提供了强大的工具来解决复杂问题。未来，随着进一步的模型训练和功能完善，我们可以期待 AI 在更多领域实现突破。

提示词参考

实验一蛋白质构建模拟器

Create an interactive Protein Builder Simulation with the following features:

User Interaction:
Provide a dropdown menu containing the 20 standard amino acids, displaying their full names, three-letter codes, and one-letter symbols.
Include buttons to Add Amino Acid to the chain, Remove Last Amino Acid, and Reset Chain.
Visual Representation:
Start with the most basic amino acid, Glycine, displayed by default.
Represent each amino acid as a uniquely colored helix and display their one-letter symbols below.
Visually connect amino acids with lines or bonds to represent peptide bonds as the chain grows horizontally.
Information Display:
As amino acids are added, display their names and basic information (properties, uses) below the simulation.
If the amino acid sequence matches a known protein or peptide, display detailed information including its name, description, and popular uses.
For sequences not matching known proteins, display the amino acid sequence and general information about peptides, indicating it may represent a novel or synthetic peptide.

实验二太阳系运转

I want to create a scientifically accurate simulation of our solar system with all 8 planets revolving around the Sun at their unique speeds. The simulation should include the following features:

Adjustable Parameters:

Include sliders (drag bars) below the simulation to adjust the following for each planet and the Sun:
Mass
Radius
Adjusting the mass of the Sun should affect the orbital speeds of the planets.
Adjusting a planet’s mass and radius should change its representation in the simulation (size and possibly color), but its own mass doesn’t significantly affect its orbit due to the Sun’s dominant mass.

Visual Enhancements:

All planets and the Sun must be clearly labeled in the simulation with white text for visibility against the space background.
The orbits of the planets should be displayed as paths around the Sun.
When a parameter is adjusted, the corresponding planet (or Sun) should be highlighted in the simulation for a brief period (e.g., with a red rectangle) to indicate which celestial body was changed.

User Interface:

The text in front of each slider should be in black for readability.
The controls should be organized in clear rows in a table, following the order of the planets in the solar system
For each celestial body, the format should be:
Name of the planet or Sun
Mass slider
Radius slider

文章来源于“硅星人Pro”，作者“椒盐玉兔”

用上大模型，阴谋论不灵了！来自MIT最新研究丨Science封面

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...