这几日,AI 圈又一“震惊”事件!!

不过并不是谁家又推出的新模型有多强,而是包括 GPT-4o、Gemini在内的一系列大模型都算不对 9.11 和 9.9 两个数字谁大谁小。

一个最简单的比大小的数学问题,竟然都做不对,愚蠢的 AI,聪明的人类。

当然,这件事带来的正面反思要比看热闹的意义大得多,在提示词优化和模型的理解方面网友们展开了很多讨论。

事情刚过了一天,有着“欧洲 OpenAI”之称的 Mistral,以希腊数学家阿基米德 2311 年诞辰为名,推出了一款名为Mathstral的模型,专攻数学推理和科学,以及第一个基于Mamba2架构的开源模型——Codestral Mamba(7B),专攻代码生成。

Mistral CEO Arthur Mensch 称这是这家巴黎AI公司对即将在月底召开的巴黎奥运会的献礼。

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

Mathstral 基于 Mistral 7B 构建,支持的上下文窗口长度为32k,遵循的开源协议为Apache 2.0 license。

从公布的能力上来看,Mathstral 在初等数学(elementary_mathematics)、高中物理(high_school_physics)和大学物理(college_physics),这些领域回答表现最好。在专业会计(professional_accounting)、美国税收政策(us_tax_policy)和人类性学(human_sexuality)这些领域则完全不在行。

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

Mathstral 在数据集测试中,在具有挑战性的Odyssey Math maj@16和GRE数学测试中表现最好。虽然在解决一般数学问题方面略逊于 DeepSeek Math 7B,但在需要深入推理的难题上展现出了强大的优势。

此外,Mathstral 在 AMC 和 AIME 竞赛中的表现也不容忽视,证明了其在解决竞赛级别数学问题上的潜力。

PS:Qwen2-7B 的数学能力也挺强啊。

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

几乎是第一时间 Ollma 就上线了对Mathstral的支持。

https://ollama.com/library/mathstral

我们来试一下 Mathstral是不是真的数学强无敌!

9.11>9.9?

第一题就是比大小,结果有点出人意料,在保持同一提示词的前提下,还是算错了。

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

更换了一下提示词顺序,不仅给出了详细且正确的解题思路,而且答案也是对的。

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

上难度题目测试

难度上升一些,算一道阿基米德分牛问题(Archimedes’ Problema Bovinum)。

虽然给出了非常长的解题过程,但是最终的答案还是错误的。不仅答案错误,而且也没能审题。

题干:

太阳神有一牛群,由白、黑、花、棕四种颜色的公、母牛组成。

在公牛中,白牛数多于棕牛数,多出之数相当于黑牛数的1/2+1/3;黑牛数多于棕牛数,多出之数相当于花牛数的1/4+1/5;花牛数多于棕牛数,多出之数相当于白牛数的1/6+1/7.

在母牛中,白牛数是全体黑牛数的1/3+1/4;黑牛数是全体花牛数1/4+1/5;花牛数是全体棕牛数的1/5+1/6;棕牛数是全体白牛数的1/6+1/7.

问这牛群是怎样组成的?

答案:

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

再算一道证明题。

题干:

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

答案:

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

虽然证明的思路和过程是对的,但有很多多余的操作,既没有化简式子,也对后续推导没有帮助。而且在步骤12之后直接应用柯西不等式,跳过了中间的一些关键步骤,使得论证不够严谨。

令人可惜的是,测试了三道题,错了两道,第三道解题还不是那么完美。

初等数学题测试

我们降低一些标准,测试一些初等数学题:

已知不等式 3x-a ≤ 0 的正整数解恰是 1 , 2 , 3 ,则 a 的取值范围是?

Mathstral 给出的解题思路和答案都是正确的。

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

作为一个 7B 规模的模型,Mathstral开箱即用的效果没有想象中那么好,对于复杂逻辑的题目会出现审题不清、逻辑出错等问题。

通过Ollama部署的 Mathstral 推理时间每道题在2-3秒左右,如果提升推理时间,可能会有更好的表现。

在推出 Mathstral 的同一时间,Mistral.AI也推出了其第一个基于Mamba2架构的开源模型——Codestral Mamba(7B)。

我们接下来也会对Codestral Mamba有更详细的体验评测。

文章来源于“硅星人Pro”

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...