哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

2024-08-20 阅读 36 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

效果怎么样？这就玩一把

是时候让Qwen2-Math过五关斩六将了！

先来几道比较简单的计算题开开胃。

提前说明，两位体验过程中，Qwen2-Math不是一边算一边显示的，而是计算完毕后直接显示过程和结果。

（而且应该是越来越多人开始玩了，结果生成时间逐渐拉长）

第一题：“计算AxA+A=240”中，A的值。

Qwen2-Math给出了正确答案，A=14或A=-16。

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

第二题：给定a的值，计算等式的结果。

Qwen2-Math计算出，答案是0，也是对的。

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

第三题：（A+3）（A+4）（A+5）=120，求A的值。

Bingo！答案是1。

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

OK，热身结束，给Qwen2-Math点难度看看。

那就来一道已经是（数学）大模型测评的标配：

9.9和9.11哪个更大？

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

Qwen2-Math自信回答：

9.9比9.11更大！

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

那就再上点难度！

扔给它一道截至目前，只有GPT-4o答对过的题：

一个外星人来到地球后等可能选择以下四件事中的一件完成：

1、自我毁灭；

2、分裂成两个外星人；

3、分裂成三个外星人；

4、什么都不做。

此后每天，每个外星人均会做一次选择，且彼此之间相互独立。

求地球上最终没有外星人的概率。

这道题，Qwen2-Math花费了约30秒左右的时间，给出答案：1。

很遗憾，答案是错误的，正确答案是√2减1。

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

我们在各大平台的评论区逛了一下，除了计算错误以外，还有另一种可能导致答案不正确——

那就是Qwen2-VL在识别题目的时候，本身就出错了。

错在第一步，这样的话大模型得出的肯定就不是正确答案。

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

同时，林俊旸还在网友的评论区表示：

咱们Qwen2-Math目前还不能做几何题。

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

用中文提问也可以

这次的主角Qwen2-Math，基于通义千问开源大语言模型Qwen2研发，由阿里千问大模型团队在十天前发布。

它专用于数学解题，并且能够解决竞赛级试题。

Qwen2-Math总共有三个参数量的版本：

72B，7B和1.5B。

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

在Qwen2-Math-72B的基础之上，千问团队还微调出了Instruct版本。

这也是Qwen2-Math的旗舰模型，它是一个数学专用的奖励模型，将奖励信号与正误判断信号结合作为学习标签，再通过拒绝采样构建监督微调（SFT）数据，最后在SFT模型基础上使用GRPO方法优化。

Qwen2-Math-72B-Instruct以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题。

并且一经发布就在数学大模型中“登基”，在MATH数据集上比GPT-4o多得了7分，按比例算高出了9.6%。

直接超越开源Llama 3.1-405B以及闭源的GPT-4o、Claude 3.5等。

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

截至发稿，抱抱脸上Qwen2-Math-72B-Instruct的下载量超过了13.2k。

而且有个最新发现：

虽然团队声称Qwen2-Math目前还是主要针对英文场景，但如果拿中文题目去问它，Qwen2-Math还是能进行解答的。

只不过是用英文回答你罢了。

据了解，Qwen2-Math的中英双语版本将会在之后推出。

参考链接：

[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

[2]https://x.com/Alibaba_Qwen/status/1825559009497317406

[3]https://x.com/JustinLin610/status/1825559557411860649

文章来自于微信公众号“量子位” 作者“衡宇”

走路1小时能赚300块！特斯拉最新招聘闪瞎眼，还有股票奖励+福利，网友：我一天能步行12小时

关联网址

关联标签

#大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

效果怎么样？这就玩一把

用中文提问也可以

文章来自于微信公众号“量子位” 作者“衡宇”

走路1小时能赚300块！特斯拉最新招聘闪瞎眼，还有股票奖励+福利，网友：我一天能步行12小时

清华联合智谱AI重磅发布：中文10000字长文写作模型和提示词技术，或将改变行业

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

哪里不会扫哪里！全球最强数学大模型发布人人可玩Demo，阿里多模态模型加持，中文适用

效果怎么样？这就玩一把

用中文提问也可以

文章来自于微信公众号“量子位” 作者“衡宇”

走路1小时能赚300块！特斯拉最新招聘闪瞎眼，还有股票奖励+福利，网友：我一天能步行12小时

清华联合智谱AI重磅发布：中文10000字长文写作模型和提示词技术，或将改变行业

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿