全新

Agent S:一种像人类一样使用计算机的开放代理框架

2025年2月27日

嘿!几个月前,我在普林斯顿大学发表了一场演讲,讲述了我对代理和 Simular 的看法。我想我应该整理一个摘要然后把它变成一篇博客文章。

最先进的性能

我的第一份工作是在 Google DeepMind 担任研究科学家,其中一个关键职责是与谷歌各产品团队合作,寻找应用我们尖端的人工智能技术的机会。但是,一位谷歌员工问了我一个完全无关的问题,这个问题可能最终激发了我离开DeepMind创办Simular的决定。

特工 S 是一个 新代理人
框架
旨在启用
用作计算机
像人类一样直观

我们介绍了一种体验增强型分层规划方法。这种方法利用在线网络知识获取有关经常变化的软件和网站的最新信息,并利用叙事记忆来利用过去互动中的高层次经验。通过将复杂任务分解为可管理的子任务,并使用情景记忆进行分步指导,Agent S 不断完善其行动并从经验中学习,从而实现适应性强和有效的任务规划。

我们介绍了 Agent S,一个开放的代理框架 支持自主交互 通过图形用户界面 (GUI) 与计算机配合,旨在通过自动化复杂的多步骤任务来改变人机交互

为此,Agent S引入了经验增强型分层规划,该计划从多个级别的外部知识搜索和内部经验检索中学习,从而促进了高效的任务规划和子任务的执行。

此外,它采用代理计算机接口,以更好地了解基于多模态大型语言模型的GUI代理的推理和控制能力。对OSWorld基准测试的评估显示,Agent S的成功率比基准高出9.37%(相对提高了83.6%),达到了新的最先进水平。全面的分析突出了各个组件的有效性,并为未来的改进提供了见解。

此外,Agent S 在新发布的版本中表现出对不同操作系统的广泛推广性
WindowsAgentArena 基准测试。

Agent S 解决了自动化计算机任务中的三个关键挑战:

Overview of Agent S Framework

概述 代理 S 框架

给定任务 Tu 和初始环境观测值 0o,经理使用网络知识和叙事记忆进行增强经验的分层规划,生成子任务 So,..., Sn.对于每个 Si,Worker Wi 都会从情景记忆中提取出在时间 t 处生成一个动作,该动作由 ACI 执行以返回下一个即时观测值 ot+1。自我评估模块通过将汇总的子任务和全任务轨迹存储在叙事和情景记忆中来闭合循环。

Overview of Agent S Framework

的管道 内存构造 并更新

内存构建和更新流程,包含两个阶段:自监督探索和持续内存更新。最初的叙事和情节记忆是在探索阶段通过一些随机策划的任务来构建的,然后根据推理任务不断对其进行更新。

Pipeline of Memory Construction and Update

主要结果

下表显示了在整个 OSWorld 测试集上评估的 Agent S 和基准模型之间的性能比较。对于GPT-4o模型,Agent S的总体成功率为20.58%,几乎是最佳相应基准的两倍(GPT-4o为11.21%)。

在 “每日” 和 “专业” 任务中,Agent S的表现一直优于基准,成功率分别达到27.06%和36.73%,而最佳基准结果为12.33%和14.29%。这些任务通常用于日常生活中或与知识密集型专业应用程序有关,Agent S的检索增强使这些应用程序受益更多。Claude-3.5-Sonnet和GPT-4O在大多数任务中的表现都优于基准版本。在 “日常” 和 “专业” 任务中,Claude-3.5-Sonnet的表现甚至比GPT-4o还要好。

结果表明,与基准方法相比,Agent S在更有效地处理各种复杂任务方面的能力得到了增强。

Pipeline of Memory Construction and Update
OSWorld 所有 369 个测试示例的完整测试集的成功率 (%) 的主要结果

分析

为了演示 Agent S 各个模块的有效性,我们对 65 个模块的子集进行了分层采样
实例,testsub 来自消融研究的完整测试集。考虑到推理成本,我们使用GPT-4o作为
LLM 是所有基线和 Agent S 消融研究的支柱

从经验中学习可以提高 GUI 代理的领域知识

Main results of Successful Rate (%) on the OSWorld full test set of all 369 test examples

OSWorld 所有 369 个测试示例的完整测试集的成功率 (%) 的主要结果

学习网络知识等全球经验,使Agent S能够针对各种任务制定明智的计划,并产生最显著的影响。从叙事记忆和情节记忆中学习与网络检索有效地协同作用,结果详细说明了它们的消融如何影响代理人处理复杂任务的能力,突显了体验式学习的价值。这些结果表明,每个组件在增强代理的领域知识方面都起着关键作用。移除所有三个组件(w/o All)会显著降低性能,这表明了在设计中从经验中学习的重要性。

ACI 激发了 LLM 更好的推理能力
并支持更好的代理学习

将基准与 Agent S(仅限 ACI)进行比较可以突出显示,通过整合 ACI 可以增强推理能力。此外,我们还通过整合体验式学习流程,研究了ACI对代理学习的影响。就基准而言,添加体验式学习略微改善了整体表现。但是,当添加到 Agent S(仅限 ACI)时,性能显著提高,这表明了 ACI 在增强代理学习方面的有效性

分层规划支持
长远工作流程

中的 ACI-only + 体验式学习设置显示了没有分层规划的 Agent S 性能以及观察到的性能下降
与完整版Agent S相比(26.15%至20.00%)突显了分层规划在长远工作流程建模中的重要性。由于经理可以在子任务规划阶段制定更详细、更准确的计划,因此在体验式学习的存在下,分层制定的效果变得显而易见。

探索、持续内存更新和自我评估器对于内存构造是必不可少的

移除探索将内存更新限制在推理阶段。删除持续的内存更新意味着我们只使用探索阶段获得的内存,而无需后续更新。移除自我评估器涉及将总结的经验替换为原始的完整轨迹。结果表明,消耗持续记忆更新和自我监督探索阶段都会导致性能下降,而自监督探索的影响要大得多。“自我评估器” 的消融进一步显示了使用汇总轨迹而不是完整轨迹样本进行规划的好处。

概括为不同 操作系统

我们在WindowsAgentArena上测试了Agent S框架,未作任何修改,这是与我们的工作同时发布的Windows操作系统基准测试。我们比较了具有类似配置的 Agent S,将 GPT-4O 作为 MLLM 主干,无障碍树+图像作为输入,使用 OCR 进行解析。如表所示,在不适应新的 Windows 环境的情况下,Agent S 的性能优于 Navi 代理。

Results of Successful Rate (%) on WindowsAgentArena using GPT-4o and Image + Accessibility Tree input on the full test set of all 154 test examples

使用 GPT-4O 和 Image + Accessibility Tree 在所有 154 个测试示例的完整测试集上输入 WindowsAgentArena 上的成功率 (%) 结果

BibTex

@misc {代理人,

 title= {Agent S:一个像人类一样使用计算机的开放代理框架},

 author= {Saaket Agashe*、韩九洲*、甘舒宇、杨佳晨、李昂、王欣先生},
年= {2024},

 eprint= {},

 archivePrefix= {arXiv},

 primaryClass= {cs.AI}

}

准备好使用你的
用类似的方式计算机?

共享和整理您的记忆,并对任务进行个性化设置。

})