精选

Agent S2:开放版,
计算机用途代理的模块化和可扩展框架

2025 年 3 月 12 日

计算机用途代理是自主的 AI 代理,通过直接与包括桌面、移动设备、浏览器和各种软件在内的图形用户界面 (GUI) 交互,代表人类用户观察、推理和执行任务。它们以最直观的方式充当人类用户与其数字工具之间的智能中介——就像人类一样控制鼠标和键盘。这种类似人类的软件导航和控制能力标志着人工智能取得了根本性的飞跃,为由自主计算机使用代理推动的下一个技术进步时代奠定了基础。



今天,我们很高兴地宣布我们在计算机使用代理领域的下一次飞跃:特工 S2,我们的代理框架的第二代。在我们最初的成功基础上, 特工 S2 通过利用前沿基础模型和专业模型,提供更高的性能和模块化。 特工 S2 实现了最先进的全新结果,通过更多步骤可以很好地扩展,最重要的是,它完全开放!

最先进的性能

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents
操作系统世界基准测试中的 Agent S2 w. Claude 3.7 + UI-TARS
(操作系统世界基准测试中的 Agent S2 和 Claude 3.7 + UI-TARS)

Agent S2 在应对关键基准测试挑战方面取得了显著进步,表现出卓越的计算机和电话使用率。

在计算机使用方面,Agent S2在OSWorld上通过15步和50步评估(两种最实用的实际使用设置)提供最先进的结果,证明我们的代理框架采取了更精确的行动,为任务制定了最佳计划,同时能够自我纠正和长期改进。值得注意的是,Agent S2在50步评估中实现了34.5%的准确率,超过了之前的SOTA(OpenAI CUA/Operator的32.6%),这表明了代理框架如何能够扩展到单一训练模型之外的情况。

在智能手机使用方面,Agent S2在AndroidWorld上实现了50%的准确率,超过了之前的SOTA(UI-TARS为46.8%),这表明了代理框架在不同的视觉用户界面环境中的普遍性。

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

在这篇博客文章之后,我们在准备论文时在 AndroidWorld 上取得了更强的成绩。我们更新了此表以反映最新表现。详情请参阅该论文。

为什么模块化框架很重要:来自人脑的灵感

人脑是模块化设计的一个杰出例子——一个由特殊组件组成的网络协同工作。不同的区域擅长不同的任务:左半球推动分析思维,右半球推动创造力,而运动和感官区域管理身体协调。这种针对协作进行了优化的模块化结构激发了我们如何设计计算机用途的人工智能代理的灵感。

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

在 Simular,我们认为最有效的人工智能代理应该遵循类似的原则——模块化框架,无缝协调不同的模型,而不是依赖单一的单一系统。我们最初的代理框架, 特工 S于 2024 年 10 月 11 日推出,体现了这一愿景。以增强经验的分层规划为核心,Agent S 实现了比当时任何模型和框架都更好的整体性能。

我们的最新研究进一步表明,精心设计的模块化框架,即使是次优的单个模型,也可能胜过最佳的独立模型。为什么?因为不同的模型在不同的领域表现出色,每个模型都有独特的长处和短处。坚固耐用 框架优化了编排 在这些模块中,确保每种模型都能在表现最佳的地方做出贡献,从而实现卓越的整体结果。在快速变化的基础模型格局中, 模块化是关键。 我们的下一代代理框架, 特工 S2,凭借其更高的模块化和灵活性,可以显著改善感知、规划和精细控制。

特工 S2:它是如何工作的

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

Agent S2 旨在通过模块化和可扩展的方法处理复杂的数字任务。其框架强调四项关键设计原则:

主动分层规划

Agent S2 遵循自然的任务层次结构,结合起来 用于低级执行的专业模型用于高层规划的广义模型。用户界面元素选择或文本突出显示等低级任务需要高精度和特定领域的专业知识,而高级任务则需要更广泛的适应能力和战略监督。此外,Agent S2 的一个关键进步是它的转移 从被动规划到主动规划。Agent S2 不是只在遇到错误后才进行重新规划,这将需要更多步骤来回溯并可能产生更多错误,而是在每个子任务之后动态更新其计划。这种主动方法提高了对实时变化的适应性、从一个子任务到下一个子任务的连续性以及未来步骤的最佳性。

实现精确互动的视觉基础
​​
Agent S2 通过专门的视觉基础模型实现与图形用户界面 (GUI) 的高精度交互。与其前身不同,前者依靠可访问性树来理解用户界面, Agent S2 仅使用原始屏幕截图作为输入进行操作,消除了对结构化无障碍数据的需求。通过将视觉理解委托给专用模型,Agent S2 可以准确地定位和操作按钮、文本、图像和单元格等用户界面元素,从而实现以前受可访问性限制限制的精细控制。

带有专家模块的代理计算机接口

Agent S2 通过将文本突出显示等复杂的低级任务卸载到,改进了代理计算机接口 (ACI) 专业的专家模块。这个 减少认知负荷 在基础模型上,使他们能够仅专注于高层次的规划和战略决策。

代理记忆机制

Agent S2 使用持续学习记忆机制,使其能够随着经验不断发展,从而随着时间的推移提高效率。保留了先前完成的任务的经验,使Agent S2能够回顾先前的行动,并根据历史成功和失败完善未来的策略。这种自适应学习能力使Agent S2能够更加熟练地使用每个应用程序,为长期自适应智能和个性化自动化奠定基础。

这种模块化架构还使扩展和适应变得毫不费力。由基础模型或专家模型提供支持的新模块可以轻松集成、移除或交换,从而使 Agent S2 能够轻松快速适应新的任务域。

设置 Web 扩展

设置 Web 扩展程序

移除视频字幕

从视频中删除字幕并导出新视频

删除线段落

删除 LibreOffice Writer 文档中的最后一段

智能手机上的 Agent S2

填写表格

任务:进入新的联系人屏幕并输入以下详细信息:名字:Grace,姓氏:Taylor,电话:799-802-1530,电话标签:
工作。不要点击 “保存”。

准备好使用你的
用类似的方式计算机?

共享和整理您的记忆,并对任务进行个性化设置。

})