微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

2024-09-18 阅读 44 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

一、涵盖154项任务测试，全面基准评估时长缩短至20分钟

Windows Agent Arena提供了一个可复现测试环境，其中AI Agent与常见的Windows应用程序、网络浏览器和系统工具进行交互，模拟人类用户体验，继而帮助开发者评估和优化AI Agent的能力。

微软的研究人员写道，在真实环境中测试Agent性能仍然是一个挑战，这是因为大多数基准测试仅限于特定模式或领域（例如，纯文本、Web导航、问答、编码）；另外鉴于任务的多步骤顺序性质，完整的基准评估很慢（大约几天时间）。

WAA的一个关键创新是能够在微软Azure云科技中的多个虚拟机上进行并行测试。论文解释称：“我们的基准测试是可扩展的，可以在Azure中无缝并行处理，在短短20分钟内就可完成全面的基准评估。”与传统可能需要数天的顺序测试相比，这极大地加快了AI Agent开发周期。

该测试包含了154个不同任务，涵盖编辑文档和电子表格（LibreOffice Calc/Writer）、浏览互联网（微软Edge、Google Chrome）、Windows系统任务（文件资源管理器、设置）、编码（Visual Studio Code）、观看视频（VLC播放器）和实用功能（记事本、时钟、画图）。

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

▲涵盖的测试具体任务显示（图源：Windows Agent Arena页面）

二、测试AI Agent任务成功率仅19.5%，远低于人类操作能力

Windows Agent Arena项目页面显示：“为了展示WAA的能力，我们还引入了一种新的多模态AI Agent Navi。”

测试结果显示，Navi在WAA中的成功率为19.5%，而人类的成功率是74.5%。这说明想开发出能与人类计算机操作能力相仿的AI，还存在很大挑战。

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

▲Navi在任务期间的推理过程和屏幕解析的分步示例（图源：Windows Agent Arena页面）

这项研究的主要作者Rogerio Bonatti说：“Windows Agent Arena为实现AI Agent的突破，提供了一个现实而全面的环境。同时，我们也希望通过AWW开源，来推进整个AI社区在这一关键领域的研究。”

此外，微软对几种最先进的视觉语言模型Agent配置都进行了基准测试，发现与人类行为相比所有现有模型的性能都较低，并且模型之间性能也存在很大差异。

WAA的发布正值科技巨头之间竞争加剧之际，他们正在开发功能更强大的AI Agent，以应对复杂的计算机任务。

微软对Windows环境的关注可能会使其在企业场景中保持主导优势。

三、开发AI Agent时需平衡创新和伦理

像Navi这样的AI Agent带来的潜在好处是显著的，但开发此类技术也引发了重要的伦理考量。

随着AI Agent变得越来越复杂，它们将更全面地访问用户的数字生活，可能会在各种应用程序中与用户的敏感个人信息、专业信息产生接触。

AI Agent在Windows环境中具有自由操作的能力，比如访问文件、发送电子邮件或修改系统设置等等，这都显示出采取强大的隐私保护措施的必要性。

在赋予AI有效协助用户的能力与维护用户隐私、控制用户数字领域之间，需要找到一个微妙的平衡点。

此外，随着AI Agent越来越能够模仿人类与计算机系统的交互，还出现了有关透明度和问责制的问题。

当用户与AI交互时，特别是在专业或者高风险场景中，可能需要被明确告知，因此明确用户同意协议也至关重要。

结语：开源WAA也需提升风险防控意识

微软开源了Windows Agent Arena，朝着提升协作开发和审查技术迈出积极一步。

但与此同时，可能会有人使用该测试去开发具有恶意的AI Agent，这意味着人们需要对此领域保持必要警惕和监管。

随着WAA为开发功能更强大的AI Agent加速，研究人员、伦理学家、政策制定者和公众就这些技术的影响进行持续讨论，将至关重要。

文章来源于“智东西”

《2024 年全球人工智能趋势报告》：GPU、数据架构依然是巨大挑战

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

297 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

262 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

233 用户在看

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

一、涵盖154项任务测试，全面基准评估时长缩短至20分钟

二、测试AI Agent任务成功率仅19.5%，远低于人类操作能力

三、开发AI Agent时需平衡创新和伦理

结语：开源WAA也需提升风险防控意识

《2024 年全球人工智能趋势报告》：GPU、数据架构依然是巨大挑战

独家对话发起人李珎，揭秘爆火AI工程师Replit Agent，分分钟用手机创造APP

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

297 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

262 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

233 用户在看

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

一、涵盖154项任务测试，全面基准评估时长缩短至20分钟

二、测试AI Agent任务成功率仅19.5%，远低于人类操作能力

三、开发AI Agent时需平衡创新和伦理

结语：开源WAA也需提升风险防控意识

《2024 年全球人工智能趋势报告》：GPU、数据架构依然是巨大挑战

独家对话发起人李珎，揭秘爆火AI工程师Replit Agent，分分钟用手机创造APP

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿