多模态大模型，阿里通义千问能和GPT-4V掰手腕了

2024-01-26 阅读 48 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

Qwen-VL 如何追平 GPT-4V、Gemini？

事实上，通义千问的视觉理解大模型已经经历了几轮迭代。

早在去年 8 月，阿里就放出了 Qwen-VL 模型的第一个版本，并很快对通义千问进行了升级。Qwen-VL 支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了「看」世界的能力。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

图片来源：https://twitter.com/Gorden_Sun/status/1696021151753855331

经历了几个月的改进，Qwen-VL 的整体能力又有了一个跃升，陆续推出 Plus 和 Max 两大升级版本，限时免费使用。用户可以在通义千问官网、通义千问 APP 直接体验 Max 版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型 API。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

相比于开源版本的 Qwen-VL，这两个模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准，并大幅超越此前开源模型的最佳水平。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

在多模态大模型性能整体榜单 OpenCompass 中，Qwen-VL-Plus 紧随 Gemini Pro 和 GPT-4V，占据了前三名的位置。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

图片来源：https://opencompass.org.cn/leaderboard-multimodal

Qwen-VL Plus 和 Max 支持百万像素以上的高清图，甚至各种极端长宽比的图片。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

它们不仅有高水平的基准评测性能，在真实场景中展现出来的解决问题的能力也有显著提高，不仅可以轻松进行对话，识别名人、地标，生成文本内容，视觉推理能力也有明显改善。

开发者一手实测

Qwen-VL 发布以来，从开源社区到社交网络上，我们已经看到了一系列「花活」。

接下来，我们从普通用户的角度，再来考验一下升级版的 Qwen-VL。

给它一张《繁花》里面 90 年代初的上海滩照片：

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问识别出了这里是上海外滩，还能介绍一下黄浦江的景色，以及上海海关大楼等特定建筑物。

剧中提到的炒饭内含多少卡路里？

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

看起来大模型可以理解并联系一些知识。

除了基础的描述和识别能力外，Qwen-VL 模型还具备视觉定位能力和针对画面指定区域进行问答的能力。比如，根据指示进行目标检测。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

如果你在截图上圈住一部分，它可以对其中的内容进行解释：

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

新升级的 Qwen-VL 模型最显著的进步之一是基于视觉完成复杂推理的能力，比如理解流程图这种复杂的表示形式：

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

与此同时，升级后的 Qwen-VL 处理图像中文本的能力也有了显著提高，不管是识别中文还是英文文本。Qwen-VL-Plus/Max 可以有效地从表格和文档中提取信息，并将这些信息重新格式化，以满足自定义输出要求。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

四个多月就有如此进步，这就让人们开始感叹，阿里通义千问大模型更新够快，能力够强。

阿里多模态大模型，正在爆炸式发展

能够达到如今的水准，Qwen-VL 的技术实力不是一朝一夕炼成的。

在多模态大模型方向上，阿里很早就开始布局。从 2021 年 M6 系列的预训练 – 微调模式，到 2022 年 OFA (One-For-All) 系列的统一模态表示和任务的模式，再到 OFASys 的系统化 AI 学习的尝试，通义千问团队的目标是做出和人一样能听、能看、能理解 & 沟通的通用 AI 模型（系统）。

2022 年，阿里开源了 OFA。OFA 能通过自然语言来描述一个图文多模态任务，比如输入「描述一下这张图片」，模型就会尝试去产生一个合适的图像描述，打破了大家对通用多模态任务模型效果不如专用多模态模型的传统观念。这篇被 ICML 2022 接收的论文思路启发了后续的许多研究，被谷歌、微软、Meta 等众多国际大厂所引用，是近年来多模态方向的高引论文之一。

2023 年以来，通义千问团队延续了 OFA 的研究路线，利用通义千问语言模型的能力，弥补了过去多模态模型在新任务泛化能力上的缺陷，相关成果就是 2023 年下半年我们看到的开源图文多模态模型 Qwen-VL 和音频多模态模型 Qwen-Audio。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

与此同时，阿里云通义实验室的一系列视觉生成类成果，也彻底火出了圈，社交网络上时不时可以看到利用通义 AI 技术生成的动图。

比如只需一张图片即可生成跳舞视频的 Animate Anyone，在国内外都引发了大量关注：

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

再比如实现真人百变换装的 Outfit Anyone。这项技术不仅能够精确地处理服装的变形效果，并且能调整以适应不同的姿势和体形，实现更加逼真的试穿体验。无论是动画形象还是真人，都可以一键换装，让「QQ 秀」真正升级成了真人版。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

此外，通义实验室的文生视频模型 I2VGen-XL 也是实实在在地火了一把，生成的视频兼顾高清、高分辨率、平滑、美观，毫不逊于 Gen2、Pika 效果。

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

I2VGen-XL 生成视频结果。

众所周知，通用人工智能的求索之路相当漫长，而大模型的技术突破，已经为我们指出了一个光明的方向。过去一年多，人们见证了一场激烈的 AI 技术角逐，赛道上不乏来自中国的选手。

以往，大模型领域的厂商大多以 OpenAI 为标杆，需要承认的是，OpenAI 的最新一代对话大模型 GPT-4 仍然在语言领域保持着领先优势。

但在接下来的 2024 年，在下一个最具爆发潜力的技术方向 —— 多模态大模型上，中国的技术与产品或可与 OpenAI、谷歌这样的选手掰一掰手腕。像 Qwen-VL 这样的国产大模型，能否实现从追平到进一步超越？会不会再诞生一批爆款应用？这些都是接下来一年值得期待的事情。

长远来看，在多模态大模型进一步实用化之后，我们以后可以更加理直气壮，让 AI 自动识别图像和音频中的内容，进行总结、摘要和分析，新技术势必会大幅度提升我们的工作效率；我们在 AR、VR 世界中与环境的交互也会更加便捷，可穿戴设备的体验将会更具真实感，新应用可以大幅改进娱乐和日常体验。

更加直观的是，多模态大模型能够根据每个人的喜好生成定制化内容和产品，对于阿里来说，这件事很重要。

或许，随着多模态大模型技术的突破，我们将很快看到电商领域发生一场革命。

文章来自于微信公众号 “机器之心”，作者 “泽南、蛋酱”

大模型推理成本排行榜来了：贾扬清公司效率领跑

关联网址

关联标签

#AI #大模型 #工作效率 #限时免费

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

Qwen-VL 如何追平 GPT-4V、Gemini？

开发者一手实测

阿里多模态大模型，正在爆炸式发展

大模型推理成本排行榜来了：贾扬清公司效率领跑

OpenAI向左，Meta往右

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

Qwen-VL 如何追平 GPT-4V、Gemini？

开发者一手实测

阿里多模态大模型，正在爆炸式发展

大模型推理成本排行榜来了：贾扬清公司效率领跑

OpenAI向左，Meta往右

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿