类似的人工智能

Agent S2 技术评论

计算机用途代理的复合通才专家框架

2025 年 4 月 1 日

打造能够像人类一样使用计算机的代理仍然是通往人工智能道路上最艰巨的里程碑之一。从执行开放式数字任务到通过 GUI 浏览不熟悉的应用程序,问题空间是巨大的、嘈杂的、高度动态的。今天,我们很高兴发布以下方面的技术论文 特工 S2,一个模块化框架,在多个计算机使用基准测试中设定了新的最先进性能。

两周前,我们开源了 Agent S2。现在,随着技术论文的发布,我们很高兴能够更深入地了解该系统背后的核心思想和架构。要获得更适合初学者的解释,请查看我们之前的博客文章。

阅读有关 Agent S2 的更多信息

Agent S2 概述:组合情报

Agent S2 围绕一个简单但有力的想法而设计:我们不是依靠单一的单一模型来规划、行动和奠定其与屏幕的交互基础,而是将这些职责划分为通才模块和专业模块。这种构图设置模仿了专业人工操作员的工作方式:高级规划人员、低级别执行者和界面专家协同工作。

Agent S2 Technical Review
Agent S2 架构结合了通才规划和专家基础。

Agent S2 的主要功能:

  • 接地混合物 (MoG): 使用一组基础专家(视觉、文本、结构)来准确本地化 GUI 元素。


  • 主动分层规划 (PHP): 根据来自环境的反馈动态完善其计划,而不是遵循固定的脚本。

基准测试结果:跨平台的最新技术

Agent S2 为广泛使用的 osWorld 基准测试树立了新的标杆:

它还显示出很强的概括性:

  • Windows AgentArena:与之前的 SOTA 相比提高了 52.8%

  • 安卓世界:与之前的 SOTA 相比提高了 16.5%

Agent S2 Technical Review
操作系统世界的成功率。代理 S2 的性能明显优于以前的代理。
WindowsAgentArena 的成功率。代理 S2 的性能明显优于以前的代理。

设计创新:MoG + PHP

大多数代理失败是由于接地不良或规划过于严格。代理 S2 地址均为:

  • 接地混合物: 将每次互动引导给最合适的专家。例如,对于电子表格,使用结构基础专家;对于按钮,使用视觉基础。将基础与计划分离本质上是将整个问题分为两个(相对)更简单的子问题,这两个子问题更符合当前一般推理模型和专业视觉基础模型的训练分布。

  • 主动规划: 不断完善子目标并根据新的观察结果进行调整,模仿人类在发生变化时如何重新评估计划。

Agent S2 Technical Review
Agent S2 通过从视觉基础切换到文本基础进行自我更正。

扩展和错误恢复

在更长的视野下,Agent S2 的扩展能力比单片模型更好。它会即时适应,并在其初始动作未产生预期效果时进行自我纠正。

Agent S2 Technical Review
为什么 Agent S2 能够在更长的时间内取得成功:自适应导航、交互和校正。

在桌面之外进行概括:Android 结果

尽管 Agent S2 主要是为桌面代理构建的,但它可以很好地推广到移动环境:

Agent S2 在 AndroidWorld 智能手机使用基准测试中达到了最先进的水平。

结论:模块化代理,真正的进步

Agent S2 表明,组合性不仅是一种优雅的设计理念,也是构建能够像人类一样稳健地使用计算机的代理的制胜策略。我们相信,这项工作使我们离AGI更近了一步,并为规划、接地和多式联运协调方面的研究开辟了新的方向。

来看看 代码 还有

准备好使用你的
用类似的方式计算机?

共享和整理您的记忆,并对任务进行个性化设置。

})