Simular 的 Agent S 在 OSWorld 基准测试中表现优于人类
AI 代理在 osWorld 上达到了 72.6%,超过了基准测试的 72.36% 的人体基线
2025 年 12 月 16 日

加利福尼亚州旧金山 — 自主计算机公司Simular今天宣布,其开放代理框架Agent S已经实现了 72.6% 成功率 上 操作系统世界,评估执行实际计算机任务的多模式代理的主要基准。
这一里程碑使Simular的代理高于基准 人类水平的表现为 72.36%,这标志着人工智能以类似人类的可靠性操作真实计算机的能力取得了重大突破。
就在一年前,OSWorld的最高分徘徊在20%左右。持续的进展迅速提高了整个代理领域的绩效。Simular 的 Agent S 是第一个突破人类阈值的,这在很大程度上是由缩放效果推动的 Behavior of-n (bbON),该方法通过使用多个代理并在其中选择最佳代理来提高性能。
Simular首席执行官兼联合创始人李昂说:“计算机代理领域的发展如此之快,以至于即使我们也没有预见到这一突破会这么快到来。”“直到最近,还不清楚人工智能能否像人类一样可靠地使用计算机。跨越这个门槛是一个历史性时刻。我们现在的重点是让这项技术可以广泛使用,为真实的人在真实的计算机上解锁真实的用例。”
这一里程碑是在Simular最近完成的2150万美元融资之后发生的,该轮融资由Felicis领投,Nvidia旗下的nVentures、Basis Set Ventures等参与了融资。Simular也是被选中试用微软新产品的五家代理公司之一 适用于代理的 Windows 365,一个安全、可扩展的环境,专为企业级 AI 自动化而设计。
去年12月,该公司成立 Simular 1.0,第一个面向消费者的真正桌面原生人工智能代理——这是朝着让人们完全摆脱计算机劳动力的使命迈出的一步。
要了解更多信息,请阅读完整的研究论文 T计算机用缩放剂的效果不合理: https://arxiv.org/abs/2510.02250