类似的人工智能

Agent S2 技术评论

计算机用途代理的复合通才专家框架

2025 年 4 月 1 日

打造能够像人类一样使用计算机的代理仍然是通往人工智能道路上最艰巨的里程碑之一。从执行开放式数字任务到通过 GUI 浏览不熟悉的应用程序，问题空间是巨大的、嘈杂的、高度动态的。今天，我们很高兴发布以下方面的技术论文 特工 S2，一个模块化框架，在多个计算机使用基准测试中设定了新的最先进性能。

两周前，我们开源了 Agent S2。现在，随着技术论文的发布，我们很高兴能够更深入地了解该系统背后的核心思想和架构。要获得更适合初学者的解释，请查看我们之前的博客文章。
‍

阅读有关 Agent S2 的更多信息

Agent S2 概述：组合情报

Agent S2 围绕一个简单但有力的想法而设计：我们不是依靠单一的单一模型来规划、行动和奠定其与屏幕的交互基础，而是将这些职责划分为通才模块和专业模块。这种构图设置模仿了专业人工操作员的工作方式：高级规划人员、低级别执行者和界面专家协同工作。

Agent S2 架构结合了通才规划和专家基础。

Agent S2 的主要功能：

接地混合物 (MoG)： 使用一组基础专家（视觉、文本、结构）来准确本地化 GUI 元素。 
主动分层规划 (PHP)： 根据来自环境的反馈动态完善其计划，而不是遵循固定的脚本。

基准测试结果：跨平台的最新技术

Agent S2 为广泛使用的 osWorld 基准测试树立了新的标杆：

它还显示出很强的概括性：

Windows AgentArena：与之前的 SOTA 相比提高了 52.8%
安卓世界：与之前的 SOTA 相比提高了 16.5%

操作系统世界的成功率。代理 S2 的性能明显优于以前的代理。

WindowsAgentArena 的成功率。代理 S2 的性能明显优于以前的代理。

设计创新：MoG + PHP

大多数代理失败是由于接地不良或规划过于严格。代理 S2 地址均为：

接地混合物： 将每次互动引导给最合适的专家。例如，对于电子表格，使用结构基础专家；对于按钮，使用视觉基础。将基础与计划分离本质上是将整个问题分为两个（相对）更简单的子问题，这两个子问题更符合当前一般推理模型和专业视觉基础模型的训练分布。
主动规划： 不断完善子目标并根据新的观察结果进行调整，模仿人类在发生变化时如何重新评估计划。