Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

2024-09-19 阅读 27 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

Qwen2.5 72B与LIama3.1 405B水平相当

相比于Qwen2系列，Qwen2.5系列主要有这么几个方面升级。

首先，全面开源。

他们研究表明，用户对于生产用的10B-30B参数范围以及移动端应用的3B规模的模型有浓厚兴趣。

因此在原有开源同尺寸（0.5/1.5/7/72B）基础上，还新增了14B、32B以及3B的模型。

同时，通义还推出了Qwen-Plus与Qwen-Turbo版本，可以通过阿里云大模型服务平台的API服务进行体验。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

可以看到，超半数模型都支持128K上下文，最多可生成8K上下文。

在他们的综合评测中，所有模型跟上一代相比实现了能力的跃迁，比如Qwen2.5-32B胜过Qwen2-72B，Qwen2.5-14B胜过Qwen2-57B-A14B。

其次，预训练数据集更大更高质量，从原本7万亿个token扩展到最多18万亿个token。

然后就是多方面的能力增强，比如获得更多知识、数学编码能力以及更符合人类偏好。

此外，还有在指令跟踪、长文本生成（从1k增加到8K以上token）、结构化数据理解（如表格）和结构化输出生成（尤其是JSON）方面均有显著提升。

来看看实际效果。

表格理解

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

生成JSON输出

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

此外，Qwen2.5模型总体上对系统提示的多样性具有更强的适应能力，增强了聊天机器人的角色扮演实现和条件设定能力。

那么就来看看具体模型能力如何。

旗舰模型在前文已经看到，它在各个任务都有明显的进步。

而像0.5B、1.5B以及3B这样的小模型，性能大概是这样的：

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

值得注意的是，Qwen2.5-0.5B型号在各种数学和编码任务上的表现优于Gemma2-2.6B。

除此之外，Qwen2.5还展现了指令调优之后的模型性能，72B-Instruct在几项关键任务中超越了更大的Llama-3.1-405B，尤其在数学（MATH：83.1）、编码（LiveCodeBench：55.5）和聊天（Arena-Hard：81.2）方面表现出色。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

还有像32B-Instruct、14B-Instruct以及Qwen2.5-Turbo，展现了与GPT-4o-mini相当的能力。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

Qwen史上最大规模开源

除了基础模型，此次Qwen还放出了代码和数学专业模型。

Qwen2.5-Coder提供了三种模型大小：1.5B、7B和32B版本（即将推出）。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

主要有两点改进：代码训练数据规模的扩大以及编码能力的增强。

Qwen2.5-Coder在更大规模的代码数据上进行训练，包括源代码、文本代码基础数据和合成数据，总计5.5万亿个token。

它支持128K上下文，覆盖92种编程语言。开源的7B版本甚至超越了DeepSeek-Coder-V2-Lite和Codestral等更大型的模型，成为目前最强大的基础代码模型之一。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

而数学模型这边，Qwen2.5-Math主要支持通过CoT和TIR解决英文和中文数学问题。

目前不建议将此系列模型用于其他任务。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

Qwen2.5-Math这一系列开源了包括基础模型Qwen2.5-Math-1.5B/7B/72B、指令调优模型Qwen2.5-Math-1.5B/7B/72B-Instruct，以及数学奖励模型Qwen2.5-Math-RM-72B。

与Qwen2-Math系列仅支持使用思维链（CoT）解决英文数学问题不同，Qwen2.5-Math 系列扩展支持使用思维链和工具集成推理（TIR）解决中英文数学问题。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

跟上一版本相比，他们主要干了这三件事来实现基础模型升级。

利用Qwen2-Math-72B-Instruct模型来合成额外的高质量数学预训练数据。

从网络资源、书籍和代码中收集更多高质量的数学数据，尤其是中文数据，跨越多个时间周期。

利用Qwen2.5系列基础模型进行参数初始化，展现出更强大的语言理解、代码生成和文本推理能力。

最终实现了能力的提升，比如1.5B/7B/72B在高考数学问答中分别提升了 3.4、12.2、19.8 分。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

好了，以上是Qwen2.5系列一整套堪称「史上最大规模」的开源。

不叫草莓叫猕猴桃

阿里通义开源负责人林俊旸也分享了背后的一些细节。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

他首先表示，在开源Qwen2的那一刻就开始了Qwen2.5项目。

在这过程中，他们认识到了很多问题和错误。

比如在预训练方面，他们们只是专注于提高预训练数据的质量和数量，使用了很多大家熟悉的方法。

比如文本分类器用于召回高质量数据，LLM 评分器用于对数据进行评分，这样就能在质量和数量之间取得平衡。

还有在创建专家模型的同时，团队还利用它们生成合成数据。

在后期训练时候，用户的反馈来帮助他们逐一解决问题，同时他们也在探索RLHF 方法，尤其是在线学习方法。

对于之后的升级和更新，他表示受o1启发，认为应该深入研究推理能力。

值得一提的是，在Qwen2.5预热之时，他们团队就透露不叫草莓，叫猕猴桃。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

好了，现在猕猴桃可以快快用起来了。

参考链接：

[1]https://x.com/JustinLin610/status/1836461575965938104

[2]https://x.com/Alibaba_Qwen/status/1836449414220779584

[3]https://qwenlm.github.io/blog/qwen2.5/

[4]https://qwenlm.github.io/blog/qwen2.5-llm/

[5]https://qwenlm.github.io/blog/qwen2.5-coder/

[6]https://qwenlm.github.io/blog/qwen2.5-math/

文章来自于微信公众号“量子位”，作者“白小交”

大象难转身，苹果会是AI时代的诺基亚吗？

关联网址

关联标签

#大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3634 用户在看

AI写作网站自动的生成文章可以用吗？

219 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

162 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

133 用户在看

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

Qwen2.5 72B与LIama3.1 405B水平相当

Qwen史上最大规模开源

不叫草莓叫猕猴桃

大象难转身，苹果会是AI时代的诺基亚吗？

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3634 用户在看

AI写作网站自动的生成文章可以用吗？

219 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

162 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

133 用户在看

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

Qwen2.5 72B与LIama3.1 405B水平相当

Qwen史上最大规模开源

不叫草莓叫猕猴桃

大象难转身，苹果会是AI时代的诺基亚吗？

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿