Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

2024-07-19 阅读 49 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

热门

这几日，AI 圈又一“震惊”事件！！

不过并不是谁家又推出的新模型有多强，而是包括 GPT-4o、Gemini在内的一系列大模型都算不对 9.11 和 9.9 两个数字谁大谁小。

一个最简单的比大小的数学问题，竟然都做不对，愚蠢的 AI，聪明的人类。

当然，这件事带来的正面反思要比看热闹的意义大得多，在提示词优化和模型的理解方面网友们展开了很多讨论。

事情刚过了一天，有着“欧洲 OpenAI”之称的 Mistral，以希腊数学家阿基米德 2311 年诞辰为名，推出了一款名为Mathstral的模型，专攻数学推理和科学，以及第一个基于Mamba2架构的开源模型——Codestral Mamba（7B），专攻代码生成。

Mistral CEO Arthur Mensch 称这是这家巴黎AI公司对即将在月底召开的巴黎奥运会的献礼。

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

Mathstral 基于 Mistral 7B 构建，支持的上下文窗口长度为32k，遵循的开源协议为Apache 2.0 license。

从公布的能力上来看，Mathstral 在初等数学（elementary_mathematics）、高中物理（high_school_physics）和大学物理（college_physics），这些领域回答表现最好。在专业会计（professional_accounting）、美国税收政策（us_tax_policy）和人类性学（human_sexuality）这些领域则完全不在行。

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

Mathstral 在数据集测试中，在具有挑战性的Odyssey Math maj@16和GRE数学测试中表现最好。虽然在解决一般数学问题方面略逊于 DeepSeek Math 7B，但在需要深入推理的难题上展现出了强大的优势。

此外，Mathstral 在 AMC 和 AIME 竞赛中的表现也不容忽视，证明了其在解决竞赛级别数学问题上的潜力。

PS：Qwen2-7B 的数学能力也挺强啊。

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

几乎是第一时间 Ollma 就上线了对Mathstral的支持。

https://ollama.com/library/mathstral

我们来试一下 Mathstral是不是真的数学强无敌！

9.11＞9.9？

第一题就是比大小，结果有点出人意料，在保持同一提示词的前提下，还是算错了。

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

更换了一下提示词顺序，不仅给出了详细且正确的解题思路，而且答案也是对的。

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

上难度题目测试

难度上升一些，算一道阿基米德分牛问题（Archimedes’ Problema Bovinum）。

虽然给出了非常长的解题过程，但是最终的答案还是错误的。不仅答案错误，而且也没能审题。

题干：

太阳神有一牛群，由白、黑、花、棕四种颜色的公、母牛组成。

在公牛中，白牛数多于棕牛数，多出之数相当于黑牛数的1/2+1/3；黑牛数多于棕牛数，多出之数相当于花牛数的1/4+1/5；花牛数多于棕牛数，多出之数相当于白牛数的1/6+1/7.

在母牛中，白牛数是全体黑牛数的1/3+1/4；黑牛数是全体花牛数1/4+1/5；花牛数是全体棕牛数的1/5+1/6；棕牛数是全体白牛数的1/6+1/7.

问这牛群是怎样组成的？

答案：

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

再算一道证明题。

题干：

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

答案：

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

虽然证明的思路和过程是对的，但有很多多余的操作，既没有化简式子，也对后续推导没有帮助。而且在步骤12之后直接应用柯西不等式，跳过了中间的一些关键步骤，使得论证不够严谨。

令人可惜的是，测试了三道题，错了两道，第三道解题还不是那么完美。

初等数学题测试

我们降低一些标准，测试一些初等数学题：

已知不等式 3x-a ≤ 0 的正整数解恰是 1 ， 2 ， 3 ，则 a 的取值范围是？

Mathstral 给出的解题思路和答案都是正确的。

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

作为一个 7B 规模的模型，Mathstral开箱即用的效果没有想象中那么好，对于复杂逻辑的题目会出现审题不清、逻辑出错等问题。

通过Ollama部署的 Mathstral 推理时间每道题在2-3秒左右，如果提升推理时间，可能会有更好的表现。

在推出 Mathstral 的同一时间，Mistral.AI也推出了其第一个基于Mamba2架构的开源模型——Codestral Mamba（7B）。

我们接下来也会对Codestral Mamba有更详细的体验评测。

文章来源于“硅星人Pro”

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

OpenAI推出“小”模型GPT-4o Mini，成本骤降，开始跟各位卷性价比了

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

OpenAI推出“小”模型GPT-4o Mini，成本骤降，开始跟各位卷性价比了

AI 搜索新方向！只服务 AI 的搜索 Exa AI 融资 1700 万，英伟达投资

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

OpenAI推出“小”模型GPT-4o Mini，成本骤降，开始跟各位卷性价比了

AI 搜索新方向！只服务 AI 的搜索 Exa AI 融资 1700 万，英伟达投资

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿