文章

GUI 代理的案例

作者 Ang Li • 加利福尼亚州帕洛阿尔托 • 2026 年 4 月 23 日

我一直被问到一个问题:

“如果我们已经可以通过编码代理解决80%的重要任务,为什么还要继续投资GUI呢?”

在这篇文章中,我认为这就像说人类不再需要双手因为他们能说话。总会有一些任务需要灵巧性,而光靠语音是无法完成的。
我还写了为什么GUI代理对AGI至关重要,为什么它们对多样化的人工智能生态系统有好处,以及人工智能是否意味着人类的工作量更多或更少。

我和电脑代理在一起的日子

最近,我注意到我在电脑上的时间已大大减少到每天大约两个小时。一年前,我轻松到了八岁。不同之处在于,随着该行业最终开发出可以像人类一样观察和行动的代理,计算机使用代理(CUA)正在变得越来越好。

我作为A轮科技创业公司首席执行官的典型日子现在看起来像这样。早上的第一件事是给Simular的人工智能代理Sai发短信,让它在X和LinkedIn上发布有趣的帖子。然后,我要求它查看我的电子邮件,举报并回复紧急邮件;有时甚至我也无法分辨这封电子邮件是我写的,还是经纪人写的,后者吸收了我的气质和声音。如果我需要写代码,我会拿出手机指示 Sai 与 Cursor 交谈,而不是亲自编码。下午,我经常接到 Zoom 连续打电话,所以我会让代理先加入,如果我迟到了,我会让其他人知道。

Sai 还无法自主完成我的所有桌面工作,而且我们距离达到 AGI 还有一段距离。像 Claude Code 和 Cursor 这样的编码代理可以处理大约 80% 的最常见、可预测、可通过 API 访问的任务。但是它们无法解决其余的问题,因为从根本上讲,它们没有像人类一样的感知能力。它们通过 API 调用链提供结果。相比之下,人类可以绕过不提供API访问权限的系统,在任何接口上自由导航。

Sai 专为在图形用户界面 (GUI) 智能级别上运行而设计,负责处理无法通过命令行完成的长尾数字任务:在桌面级别单击、键入和浏览应用程序。一个典型的例子是与不公开API的网站进行交互,这要么是因为公司已经建立了数据墙,要么是因为传统软件完全早于SaaS时代。基于 GUI 的代理可以像人类一样查看和操作屏幕。实际上,最有效的方法将两者结合在一起:尽可能使用终端提高效率,在任务需要时回到 GUI。

为什么 GUI 不会消失

你可能会问:

如果我们已经可以用编码代理解决80%的重要任务,为什么还要继续投资GUI呢?随着软件界面越来越薄——简化为文本字段、向数据中心发送命令和交付结果,这些用例难道不会减少吗?

这就像说人类不再需要双手,因为他们会说话。总会有一些任务需要灵巧性,而光靠语音是无法完成的。人类与外界互动的方式有很多,言语只是其中之一。只要软件需要与人类交互,GUI 就会存在。纯粹基于文本的命令是不够的,因为语言本质上是模棱两可的——同一个词可以根据上下文传达不同的含义。随着构建应用程序变得越来越容易,GUI 将激增。长尾数字任务不会缩小;如果有的话,它倾向于集中价值最高的工作。Text-based commands might be sufficient but people really need very long text to describe the meaning/concept like  lawyers do. Text is easy to be ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.

And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.That's like saying humans no longer need hands because they can speak. There will always be tasks requiring the dexterity that voice alone can't accomplish. There are many ways for humans to interact with the outside world, and speech is just one of them. So long as software needs to interact with humans, GUI will exist. Purely text-based commands aren't sufficient, because language is inherently ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.

还有一个战略层面。完全依赖 API 访问意味着要遵守那些花了多年时间建造围墙花园的现有企业的规则。一个像人一样看待和行动的 GUI 代理可以绕过这些墙,甚至可以将其完全拆除。

最近人们对OpenClaw等计算机使用工具的兴奋不在于它运行良好,它仍然卡顿,充斥着边缘案例和安全问题。但它让人们瞥见了自主计算机的未来,在自主计算机中,硬件的作用逐渐消失,你所需要的只是一种像同事一样与代理进行通信的方式。当 GUI 代理达到下一个功能步骤功能时,如果普通消费者可以访问 GUI 代理,我们可能会看到另一个 ChatGPT 的爆炸式采用,这使当今围绕编码代理的热议相形见绌。

这对2026年意味着什么

引用 a16z 普通合伙人的话 阿尼什·阿查里亚:

“如果你认为 saas-pocalypse 很糟糕,那就等着今年晚些时候电脑使用情况变得非常不错吧。对现有企业的影响是编码代理的100倍,因为计算机使用不对称会使敌对的集成商受益。”

我们相信 2026 年是这一年 当 CUA 长大时 并体验性能的显著改善。这是否意味着人类的工作量会减少?不一定。有抱负的人可能会工作得更多,因为现在吞吐量上限已经过去了,他们看到了自己的能力。今天被认为富有成效的东西在六个月后可能显得微不足道。期望将变得更高——从要求代理填写表格,到要求其代表你参加 Zoom 会议,再到我们还无法完全阐明的任务。人工智能驱动的员工不会放慢脚步;他们只会提高门槛。人类的愿望不会停滞不前。

建造自主计算机并不意味着取代人类。这意味着合作。

将双手从电脑上解放出来。立即免费下载 Simular。

试试 Sai
button-arrow
})