文章

2026 年:桌面代理不再是玩具的一年

作者 Ang Li • 加利福尼亚州帕洛阿尔托 • 2026 年 1 月 26 日

2025 年感觉就像是谈论代理商的一年。

马努斯的崛起以及随之而来的代理工具的泛滥让人感到欣喜若狂,而且看着有点奇怪。早在2019年我研究人工智能代理时,很少有人关心,人们叫我研究 “副驾驶”,然后是炙手可热的趋势。但我一直以更多的目标为目标:使用计算机的代理可以看到屏幕,使用键盘和鼠标,并且可以在任何计算机界面上可靠地运行,这样人们终于可以从过多的桌面工作中解脱出来。

去年,那个未来不再显得抽象,现在已经接近了。LLM 取得了长足的进步,但这也是业界对人工智能可靠性的看法。以下是我预计来年会出现的三种趋势。

代理可靠性得到了正确的评估

基准一直决定着技术进步的速度。长期以来,评估代理商的标准是他们能否成功一次。衡量单次试用成功率的旧 pass @k 基准测试从一款游戏中选出那个赢家。但是它并不能反映出可靠性,也无法回答:每次出现这种情况时我都能依靠这个吗?

业界正在聚焦一个更好的框架:pass^k,这是第一个 介绍了 作为 2024 年基于 LLM 的代理的 ²-bench 基准测试的一部分。pass^k 是指代理成功的概率 每次 跨过 k 次试验。随着 k 的增加,pass^k 会掉落。例如,每次试验成功率为 75%(通过 @k)的代理人连续三次成功的几率只有大约 42%。也就是说,它的 pass^k 只是 (0.75) ³ √ 42%。

对于许多面向客户的代理来说,可重复性至关重要。在现实生活中,人类无法容忍 “主要工作”。如果代理无法可靠地重现成功的行为(如果它仍然需要照看),那么它对客户的价值就会迅速崩溃。

桌面代理变得可用了

如今,大量的SaaS用户界面与工作无关,而是摩擦:过多的点击和脆弱的抽象与用户目前想要做的事情不符。这就是代理公司急于自动化桌面工作流程的原因。但在 2025 年,你的体验可能是:点击几次仍然比向 LLM 键入或说出详细的命令、等待回复然后进行迭代更快、更清晰。看到头条新闻宣称人工智能工具实际上是如何减缓员工的速度也就不足为奇了。

但是情况正在迅速变化。如果去年的计算机使用者是幼儿 —— 能够采取几步但经常有损坏某些东西的风险 —— 那么今年他们感觉更像是五岁的孩子。他们仍然有限,无法处理极具创造性或模棱两可的工作。但是他们可以稳步行走。他们可以遵循指示。至关重要的是,他们可以重复不需要大量推理的任务,比如孩子跟着父母重复单词,在pass^k上达到新的里程碑。

随着 pass^k 的不断改进,我们将看到一种可行的跨操作系统桌面代理,它无需持续的人为干预即可完成端到端任务。一旦可靠性超过阈值,能力就会增长。最终,能够查看和操作界面的计算机使用代理将位于 SaaS 之上,SaaS 本质上是一个具有现代用户界面的自动化人工定义工作流程。

一旦人类不再操作,硬件将简化

第三个趋势直接关系到我们公司的愿景:自主计算机公司。

大多数现代硬件都是围绕人体工程学设计的。苹果之所以完善触控板,是因为人类需要它。但是,如果人工智能成为主要操作员,移动、点击和打字就会消失。随着计算机操作代理变得越来越强大,托管它们的硬件将变得不那么复杂。代理消除了不必要的人机交互。人类发布意图。人工智能可以完成这项工作。

这就是为什么我们的最终游戏从第一天起就不局限于软件的原因。随着时间的推移,计算机将首先为代理设计——无论最终采取什么形式。我们正在进入一个人工智能硬件不会只会说话的阶段(比如Alexa)。它还会

________

人们对 AGI 和社会混乱的担忧是可以理解的。在一段时间内,代理商会像今天人们一样做很多事情。这些问题值得认真关注。

但历史表明,技术变革虽然具有颠覆性,但一直在创造新的工作类型。装配线并没有结束制造业的就业机会——它创造了全新的产业。当代理人变得真正可靠时,挑战可能会转向人力供不应求,以应对仍然需要人类判断和创造力的新问题。

2026年的不同之处在于我们正在跨越一个门槛。桌面代理正在从研究实验室转移到生产工具。它们变得足够可靠,企业将开始依赖它们。问题不再是代理能否像人类那样做;而是我们如何设计人与人工智能协作模式,使这种过渡顺利进行。

2026 年将是桌面代理不再是玩具,而是开始实际工作的一年。而这仅仅是开始。

建造自主计算机并不意味着取代人类。这意味着合作。

将双手从电脑上解放出来。立即免费下载 Simular。

试试 Simular
button-arrow
})