这几日,AI 圈又一“震惊”事件!!
不过并不是谁家又推出的新模型有多强,而是包括 GPT-4o、Gemini在内的一系列大模型都算不对 9.11 和 9.9 两个数字谁大谁小。
一个最简单的比大小的数学问题,竟然都做不对,愚蠢的 AI,聪明的人类。
当然,这件事带来的正面反思要比看热闹的意义大得多,在提示词优化和模型的理解方面网友们展开了很多讨论。
事情刚过了一天,有着“欧洲 OpenAI”之称的 Mistral,以希腊数学家阿基米德 2311 年诞辰为名,推出了一款名为Mathstral的模型,专攻数学推理和科学,以及第一个基于Mamba2架构的开源模型——Codestral Mamba(7B),专攻代码生成。
Mistral CEO Arthur Mensch 称这是这家巴黎AI公司对即将在月底召开的巴黎奥运会的献礼。
Mathstral 基于 Mistral 7B 构建,支持的上下文窗口长度为32k,遵循的开源协议为Apache 2.0 license。
从公布的能力上来看,Mathstral 在初等数学(elementary_mathematics)、高中物理(high_school_physics)和大学物理(college_physics),这些领域回答表现最好。在专业会计(professional_accounting)、美国税收政策(us_tax_policy)和人类性学(human_sexuality)这些领域则完全不在行。
Mathstral 在数据集测试中,在具有挑战性的Odyssey Math maj@16和GRE数学测试中表现最好。虽然在解决一般数学问题方面略逊于 DeepSeek Math 7B,但在需要深入推理的难题上展现出了强大的优势。
此外,Mathstral 在 AMC 和 AIME 竞赛中的表现也不容忽视,证明了其在解决竞赛级别数学问题上的潜力。
PS:Qwen2-7B 的数学能力也挺强啊。
几乎是第一时间 Ollma 就上线了对Mathstral的支持。
https://ollama.com/library/mathstral
我们来试一下 Mathstral是不是真的数学强无敌!
9.11>9.9?
第一题就是比大小,结果有点出人意料,在保持同一提示词的前提下,还是算错了。
更换了一下提示词顺序,不仅给出了详细且正确的解题思路,而且答案也是对的。
上难度题目测试
难度上升一些,算一道阿基米德分牛问题(Archimedes’ Problema Bovinum)。
虽然给出了非常长的解题过程,但是最终的答案还是错误的。不仅答案错误,而且也没能审题。
题干:
太阳神有一牛群,由白、黑、花、棕四种颜色的公、母牛组成。
在公牛中,白牛数多于棕牛数,多出之数相当于黑牛数的1/2+1/3;黑牛数多于棕牛数,多出之数相当于花牛数的1/4+1/5;花牛数多于棕牛数,多出之数相当于白牛数的1/6+1/7.
在母牛中,白牛数是全体黑牛数的1/3+1/4;黑牛数是全体花牛数1/4+1/5;花牛数是全体棕牛数的1/5+1/6;棕牛数是全体白牛数的1/6+1/7.
问这牛群是怎样组成的?
答案:
再算一道证明题。
题干:
答案:
虽然证明的思路和过程是对的,但有很多多余的操作,既没有化简式子,也对后续推导没有帮助。而且在步骤12之后直接应用柯西不等式,跳过了中间的一些关键步骤,使得论证不够严谨。
令人可惜的是,测试了三道题,错了两道,第三道解题还不是那么完美。
初等数学题测试
我们降低一些标准,测试一些初等数学题:
已知不等式 3x-a ≤ 0 的正整数解恰是 1 , 2 , 3 ,则 a 的取值范围是?
Mathstral 给出的解题思路和答案都是正确的。
作为一个 7B 规模的模型,Mathstral开箱即用的效果没有想象中那么好,对于复杂逻辑的题目会出现审题不清、逻辑出错等问题。
通过Ollama部署的 Mathstral 推理时间每道题在2-3秒左右,如果提升推理时间,可能会有更好的表现。
在推出 Mathstral 的同一时间,Mistral.AI也推出了其第一个基于Mamba2架构的开源模型——Codestral Mamba(7B)。
我们接下来也会对Codestral Mamba有更详细的体验评测。
文章来源于“硅星人Pro”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则