最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

2024-08-09 阅读 35 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

超越GPT4o，会做竞赛级试题

如前文所说，Qwen2-Math共有72B、7B和1.5B三个参数规模，分别由对应规模的Qwen2基础模型改造而成。

在基础模型之上，团队使用精心设计的数学专用语料库进行了预训练，训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目，以及由Qwen2模型合成的数学预训练数据。

结果，在GSM8K、MATH等经典数学测试集上，Qwen2-Math-72B的数学能力都超过了405B的Llama-3.1。

这些数据集，涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。

除了这些英文的数据集，Qwen2-Math还专门挑战了中文数据集CMATH，还有高考试题。

在中文数据集上，1.5B版本的成绩就超过了70B的Llama 3.1，而且三个版本相当于同规模的Qwen2基础模型，成绩都有明显提升。

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

在Qwen2-Math的基础之上，千问团队还微调出了Instruct版本。

具体来说，团队基于Qwen2-Math-72B训练一个数学专用的奖励模型，将奖励信号与正误判断信号结合作为学习标签，再通过拒绝采样构建监督微调（SFT）数据，最后在SFT模型基础上使用GRPO方法优化。

在MATH数据集上的零样本测试显示，1.5B的Instruct就能取得70%的准确率，比70B的Llama 3.1还高。

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

此外，研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。

作者让Qwen2-Math采用了贪心（greedy）、RM@8和Maj@8三种策略，结果无论是哪一种，Qwen2-Math的成绩全都超过了同规模的Llama 3.1。

中文数据集方面，Qwen2-Math还挑战了今年最新的中高考试题，与Llama 3.1相比优势十分明显。

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

值得一提的是，为了减少测试成绩当中的“水分”，千问团队专门从训练数据集中去除了所有和测试集重叠的部分。

而且除了精确匹配，还运用了更严格的13-gram去重策略，只要最长公共序列的比率应大于0.6就会被去除。

后训练的过程也是如此，涉及的数据集，甚至测试成绩中没展示的Aqua、SAT Math，全都被从数据当中剔除。

另外，Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。

比如在AIME 24的30道题当中，Qwen2-Math-72B-Instruct用rm@256策略能够做对11道。

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。

而且最小的1.5B版本也能在rm@256的条件下做对五道题，已经超过了这三家模型。

另外，Gemini 1.5 Pro有一个专门针对数学任务的版本，但也只能做对七八道题目，Qwen2-Math-72B-Instruct是第一个做对的题目数量达到两位数的模型。

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

在官方文档中，千问团队也展示了一些示例，比如奥赛级数学测试集Math Odyssey当中有这样一道题目。

这道题目涉及到组合数学和图论，具体又包括了完全图、二部图等概念。

此外还需要理解如何将这些概念应用于特定性质结构的构建，需要较强的抽象思维能力和对图论结构的深刻理解。

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

Qwen2-Math的解决方案是这样的，从中可以看出确实是运用到了图论方法。

最终，Qwen2-Math正确地回答了这道题目。

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

不过，目前发布的Qwen2-Math主要针对英文场景，中英双语版本将会在之后推出。

另外，根据Qwen2-Math的许可协议，该模型对大部分用户来说可以免费商用，但对于72B版本，如果每月活跃用户数超过1亿，就需要向千问团队申请许可了。

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

文章来源于“量子位”，作者“克雷西”

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

ChatGPT会不受控制克隆你的声音！OpenAI公开红队测试报告

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

超越GPT4o，会做竞赛级试题

文章来源于“量子位”，作者“克雷西”

ChatGPT会不受控制克隆你的声音！OpenAI公开红队测试报告

GPT-4o模仿人类声音，诡异尖叫引OpenAI研究员恐慌！32页技术报告出炉

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

超越GPT4o，会做竞赛级试题

文章来源于“量子位”，作者“克雷西”

ChatGPT会不受控制克隆你的声音！OpenAI公开红队测试报告

GPT-4o模仿人类声音，诡异尖叫引OpenAI研究员恐慌！32页技术报告出炉

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿