新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

2024-09-19 阅读 37 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

从结构上对齐视觉和文本嵌入

话不多说，我们照例来拆解一下Ovis这个新科第一背后的技术细节。

根据OpenCompass评测基准，Ovis1.6-Gemma2-9B超过了Qwen2-VL-7B、MiniCPM-V-2.6等一众相同参数量级的知名多模态模型。

在数学等推理任务中，甚至有媲美70B参数模型的表现。

Ovis1.6的幻觉现象和错误率也低于同级别模型，展现了更高的文本质量和准确率。

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

如何做到？阿里国际AI团队的核心思路是：从结构上对齐视觉和文本嵌入。

当前，多数开源多模态大语言模型（MLLM）并非从头训练整个模型，而是通过像多层感知机（MLP）这样的连接器，将预训练的大语言模型（LLM）和视觉Transformer集成起来，给LLM装上“眼睛”。

这样一来，就导致了一个问题：MLLM的文本和视觉模块采用不同的嵌入策略，使得视觉和文本信息没办法无缝融合，限制了模型性能的进一步提升。

针对这个问题，Ovis采用了视觉tokenizer+视觉嵌入表+大语言模型的架构。

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

Ovis借鉴了大语言模型中的文本嵌入策略，引入了可学习的视觉嵌入表，将连续的视觉特征先转换为概率化的视觉token，再经由视觉嵌入表多次索引加权得到结构化的视觉嵌入。

文本方面，Ovis沿用当前大语言模型的处理方式，文本tokenizer将输入文本转化为one-hot token，并根据文本嵌入表查找到每个文本token对应的嵌入向量。

最后，Ovis将所有视觉嵌入向量与文本嵌入向量拼接起来，经由Transformer处理，完成多模态任务。

此次开源的Ovis1.6，相较于前代Ovis1.5，还在架构、数据、训练策略等方面做出了进一步优化。

架构方面，采用动态子图方案，能灵活应对不同分辨率图像特征，提升了模型处理复杂视觉任务的能力。

数据方面，Ovis1.6在训练中涵盖了多种类型的数据集，包括Caption、OCR、Table、Chart、Math等，确保模型在广泛的应用场景中都有出色表现。

训练策略方面，采用DPO等方案持续优化模型性能，增强了模型在生成文本和理解复杂指令方面的能力，使得模型在复杂任务上的表现进一步提升。

消融实验的结果还显示，在训练数据、模型参数、LLM和视觉底座都保持相同的情况下，与基于MLP连接器的多模态大模型架构相比，Ovis性能整体提升了8.8%。

量子位还了解到，作为一项基础研究，Ovis目前已经被广泛应用到了阿里国际的实际业务中。

AI能力变革出海电商

正如大家所知，阿里国际是一家AI驱动的、拥有多个全球知名电商的公司。

而事实上，出海电商这个场景，早已第一批被AIGC“渗透”。

原因很直接：做出海生意，往往面临海外市场复杂、成本和竞争压力大、跨境人才短缺等等共性问题，而多模态大模型这样的AIGC技术，恰恰能在这些问题上，提供适配的降本增效方案。

举个例子，在跨境电商领域，退货退款一直是影响用户体验的重要因素。

传统方案是人工进行退款退货的审核和判责。这不仅需要大量审核人力和较久的审核时间，还会因为人工主观的评判标准不一，导致判罚的不稳定性较高。多数平台为了保证用户体验，倾向于给消费者更多的倾斜，但这也伤害了部分商家和平台的权益。

现在，基于Ovis，阿里国际融合过去积累的大量电商知识，上线了智能退款系统。

相比于人工，Ovis针对用户提供的退货退款图文和视频详情，可以提供秒级的审核服务，且具有高度稳定的一致性。这就在保证消费者和商家公平权益的同时，实现了快速低成本的退货退款方案。

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

另外，在商品属性提取、生成卖点等场景中，Ovis也已落地应用。

阿里国际AI团队，正是在如此预判下成立试跑的。而就在成立这一年多时间里，阿里国际已经实现AI能力在跨境电商领域的规模化应用：

AI发布商品达到百万规模，并且通过AI优化，这些产品在海外的搜索量提升了37%。

AI能力覆盖营销、客户服务、商品发布、设计、合规等40+应用场景，服务全球50万商家。

阿里国际AI能力日均超5千万次调用，规模每两月翻番。

……

Ovis之外，阿里国际还构建了多语言增强大模型Marco，电商版多模态大模型MarcoVL，提供的MaaS服务包括：

多语言文本生成技术：为商品详情描述适配当地语言，让AI为商品介绍改写优化多语言标题，突破语言和文化壁垒。
AI图片处理，比如一键生成多张虚拟试衣效果。

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

以及智能消除、智能抠图等图像设计类能力。

可以说，从创立店铺到市场营销，再到售前售后，在出海电商的各个环节，阿里国际都已提供相应的AI技术予以辅助——

潜移默化中，AI已经完全改变商家的工作方式和生产效率。

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

大模型之所以能在各行各业掀起惊涛骇浪，核心原因就是对生产力的解放和降本增效。

在这一波变革之中，对于阿里国际这样的平台而言，AI技术能力再次成为最受关注的核心竞争力。

而借助平台之力，出海电商商家已经开始第一批享受拥抱AI的红利。

对于广大开发者而言，来自于实干家们的开源贡献，亦是福音。

Ovis1.6开源地址和Demo：

arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface：https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo：https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

文章来自于“量子位”，作者“茕茕”。

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

关联网址

关联标签

#AI #AI技术 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

从结构上对齐视觉和文本嵌入

AI能力变革出海电商

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

成立 5 年融资近 10 亿元，这家AI创企将被英伟达收入囊中，AI 大佬趣评：估值应该仅能让投资人回本

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

从结构上对齐视觉和文本嵌入

AI能力变革出海电商

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

成立 5 年融资近 10 亿元 ，这家AI创企将被英伟达收入囊中，AI 大佬趣评：估值应该仅能让投资人回本

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

成立 5 年融资近 10 亿元，这家AI创企将被英伟达收入囊中，AI 大佬趣评：估值应该仅能让投资人回本