精选

Agent S3:通过大规模扩展实现人机级计算机的使用

2025 年 10 月 2 日

自从一年前在OSWorld上推出我们的第一个框架Agent S以来,我们的比例为20.6%,一直在计算机使用代理的前沿领域稳步向前迈进。特工S2将最新水平提高到48.8%,现在 代理 S3 将性能提升到 69.9%,接近人类水平的72%。

自从这项工作以来,Agent S继续快速前进。在 Simular 的最新公告中,Agent S 实现了 osWorld 成功率为 72.6%,超越了基准 72.36% 的人体基线


代理 S3 直接建立在代理 S2 的基础上。通过简化框架和引入原生编码代理,我们将OSWorld的性能提高到62.6%,开创了新的技术水平。除此之外,Agent S3 还推出了第一个 计算机用途代理的大规模框架 通过 Behavior of-n (bbON)。BbON 不依赖单一代理运行,而是从多个部署中进行选择并选择最佳结果。这种方法可以实现可扩展的性能提升,将准确性从 62.6% 提高到 69.9%,并展示了代理框架如何仅通过扩展更多样化的代理运行即可改进。

全新最先进的、接近人类水平的性能

*使用行为最佳的代理 S3

在OSWorld上,仅Agent S3在100步设置中就达到了62.6%,已经超过了之前的61.4%(Claude Sonnet 4.5)。随着Behavior Best-of-N的加入,性能进一步攀升至69.9%,使计算机使用代理的精度与人类水平的精度相差仅几个百分点(72%)。

为了实现跨环境的推广,Agent S3 在应用 Behavior Of-n 时也显示出很大的改进。在WindowsAgentArena上,通过从多次部署中进行选择,准确率从仅使用Agent S3的50.2%提高到56.6%。同样,在安卓世界上,性能从68.1%提高到71.6%。

CUA 瓶颈:长远任务的高方差

不同的代理运行成功率很高。bbON 可以查看运行情况并选择最佳的试剂。

计算机使用代理(CUA)承诺未来软件可以自行运行,预订机票,填写表单和浏览应用程序,这样您就不必这样做。但是现在,当任务变得漫长而混乱时,即使是最好的CUA也会跌跌撞撞。杂散的点击、延迟的回复或意外的弹出窗口可能会使整个跑步偏离正轨。小错误更是雪上加霜,而本应顺畅的自动化却变成了挫败感。

这就是核心瓶颈: 高方差。同一个特工可能会完成一次任务,然后在下次将其彻底摧毁。这种不一致使得 CUA 不可预测,也说明了为什么复杂的日常工作流程的可靠性仍然是一项挑战。

计算机用缩放剂

最佳行为:通过多次部署进行扩展

扩展代理面临的核心挑战是,即使使用更强的模型,单次发布仍然不一致。代理 S3 介绍 Behavior of-n (bbON),它通过并行运行多次部署并选择最佳部署来解决这个问题。

我们的方法从生成事实开始。原始代理运行包含大量的分步细节,其中许多是无关紧要或多余的。通过生成事实,我们将这些嘈杂的运行转化为关于每个步骤发生的事情的简明陈述,只关注与任务成功直接相关的信息。将这些事实串联起来会产生一种行为叙事,这清楚地总结了代理人在每个步骤中的所作所为,从而使代理的运行更易于解释,更易于比较。

在行为叙述到位后,我们会运用评委选择来确定哪种推广方案最能完成任务。法官没有比较原始产出,而是以每种行为叙述中的事实为依据做出裁决。通过在推出过程中引用这些事实,法官可以比较推理出哪种尝试最有效,并最终选择最佳方案。

改进框架:更简单的设计,更大的灵活性

Agent S2 使用了分层管理器—工作器设置,但这增加了不必要的开销。Agent S3 通过删除该层次结构并引入可以生成和执行代码的本机编码代理来简化框架。这使得解决方案更加多样化,涵盖了代码和 GUI 任务,也更加可靠。这些改进加起来将性能提高了约 13%,使代理 S3 的单代理性能达到了 62.6%。

通过代理运行进行扩展

随着代理在 osWorld 上运行次数的增加,我们发现性能逐渐提高。在 10 次运行中,我们实现了最高性能,GPT-5 为 69.9%,GPT-5 Mini 为 60.2%。

准备好使用你的
用类似的方式计算机?

共享和整理您的记忆,并对任务进行个性化设置。