小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

2024-07-19 阅读 22 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

面向大众的多语言模型

该模型专为全球多语言应用而设计。它受过函数调用训练，拥有一个大型上下文窗口，在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面表现尤为突出。

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

图 1：Mistral NeMo 在多语言基准测试中的表现。

Tekken：更高效的分词器

Mistral NeMo 使用基于 Tiktoken 的新分词器 Tekken，该分词器经过 100 多种语言的训练，能比以前 Mistral 模型中使用的 SentencePiece 分词器更有效地压缩自然语言文本和源代码。在压缩源代码、中文、意大利文、法文、德文、西班牙文和俄文时，它的效率要高出约 30%。在压缩韩文和阿拉伯文时，它的效率是原来的 2 倍和 3 倍。事实证明，与 Llama 3 分词器相比，Tekken 在压缩所有语言中约 85% 的文本方面更胜一筹。

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

图 2：Tekken 的压缩率。

指令微调

Mistral NeMO 经历了高级微调和对齐阶段。与 Mistral 7B 相比，它在遵循精确指令、推理、处理多轮对话和生成代码方面的能力大大提升。

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

表 2：Mistral NeMo 指令微调模型的准确率。使用 GPT4o 作为裁判进行的评估。

Mistral NeMo 基础模型和指令微调模型的权重都托管在 HuggingFace 上。

基础模型：https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
指令微调模型：https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407

你现在就可以使用 mistral-inference 试用 Mistral NeMo，并使用 mistral-finetune 对其进行调整。

该模型被还打包在一个容器中，作为 NVIDIA NIM inference 微服务，可从 ai.nvidia.com 获取。

模型变小之后，小公司也能用 AI 赚钱了

在接受 Venturebeat 采访时，英伟达应用深度学习研究副总裁 Bryan Catanzaro 详细阐述了小型模型的优势。他说：「小型模型更容易获取和运行，可以有不同的商业模式，因为人们可以在家中自己的系统上运行它们。事实上，Mistral NeMo 可以在许多人已经拥有的 RTX GPU 上运行。」

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

这一进展发生在 AI 行业的关键时刻。虽然很多注意力都集中在拥有数千亿参数的庞大模型上，但人们对能够在本地商业硬件上运行的更高效模型越来越感兴趣。这种转变是由对数据隐私的担忧、对更低延迟的需求以及对更具成本效益的 AI 解决方案的渴望所驱动的。

Mistral-NeMo 128k 的上下文窗口是一个突出的功能，允许模型处理和理解比许多竞争对手更多的文本块。Catanzaro 说：「我们认为长上下文能力对许多应用来说可能很重要。如果无需进行微调，那模型会更容易部署。」

这种扩展的上下文窗口对于处理冗长文档、复杂分析或复杂编码任务的企业来说尤其有价值。它有可能消除频繁上下文刷新的需要，从而产生更加连贯一致的输出。

该模型的效率和本地部署能力可能会吸引在联网受限或有严格数据隐私要求的环境中运营的企业。然而，Catanzaro 澄清了该模型的预期使用场景。他说：「我会更多地考虑笔记本电脑和台式电脑，而不是智能手机。」

这一定位表明，虽然 Mistral-NeMo 使 AI 更接近个人业务用户，但它还没有达到移动部署的水平。

行业分析师认为，这次发布可能会显著扰乱 AI 软件市场。Mistral-NeMo 的推出代表了企业 AI 部署的潜在转变。通过提供一种可以在本地硬件上高效运行的模型，英伟达和 Mistral AI 正在解决阻碍许多企业广泛采用 AI 的担忧，如数据隐私、延迟以及与基于云的解决方案相关的高成本。

这一举措可能会使竞争环境更加公平，允许资源有限的小型企业利用以前只有拥有大量 IT 预算的大型公司才能获得的 AI 能力。然而，这一发展的真实影响将取决于模型在实际应用中的表现以及围绕它构建的工具和支持生态系统。

随着各行业的企业继续努力将 AI 整合到他们的运营中，像 Mistral-NeMo 这样的模型代表了向更高效、可部署的 AI 解决方案的转变。这是否会挑战更大、基于云的模型的主导地位还有待观察，但它无疑为 AI 在企业环境中的整合开辟了新的可能性。

参考链接：https://mistral.ai/news/mistral-nemo/

https://venturebeat.com/ai/nvidia-and-mistrals-new-model-mistral-nemo-brings-enterprise-grade-ai-to-desktop-computers/

文章来自于微信公众号“机器之心”，作者 “机器之心”

GPT-4o mini一手测评：懂得不多，但答得极快

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3634 用户在看

AI写作网站自动的生成文章可以用吗？

220 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

162 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

133 用户在看

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

面向大众的多语言模型

Tekken：更高效的分词器

指令微调

模型变小之后，小公司也能用 AI 赚钱了

GPT-4o mini一手测评：懂得不多，但答得极快

OpenAI竟成ChatGPT“终结者”？更小、更强的多模态模型来了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3634 用户在看

AI写作网站自动的生成文章可以用吗？

220 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

162 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

133 用户在看

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

面向大众的多语言模型

Tekken：更高效的分词器

指令微调

模型变小之后，小公司也能用 AI 赚钱了

GPT-4o mini一手测评：懂得不多，但答得极快

OpenAI竟成ChatGPT“终结者”？更小、更强的多模态模型来了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿