在构建计算机使用代理时对立面统一
作者 Ang Li • 加利福尼亚州帕洛阿尔托 • 2026 年 2 月 23 日

构建使用计算机的代理需要解决各种对立面:人与机器、自然语言与编程语言、熵与秩序以及灵活性与可靠性。要了解这些紧张关系如何相互作用以实现机器智能,我们必须首先确定究竟是什么使代理变得 “好”。
—
人工智能有 经过验证 在计算机环境中与人类一样有能力,但是 能力 光靠人工通用智能是不够的。 可靠性 同样重要。
假设你雇用的候选人解决了所有面试问题,但在第一周犯了三个严重错误。面对紧迫的截止日期,你可能会求助于一位不那么令人印象深刻、完成率为99%的同事。
这个原理解释了为什么人工智能领域正在从 “pass @k” 基准测试——成功过一次——转向了 “pass^k” 指标 该措施在类似条件下屡获成功。AGI 不仅是一个可以执行某些任务的系统,而且是一个可以执行某些任务的系统 可靠 一遍又一遍地交付成果,因为他们可以从过去的错误中吸取教训。
但是,是什么阻止了使用计算机的代理实现这种可靠性呢?挑战在一定程度上在于人类通信和计算机规则之间的根本区别。
人类语言与编程语言
在人工智能中实现可靠性需要我们面对一个尴尬的现实:尽管人类语言具有强大的交际能力、说服力和情感力,但语言却非常模棱两可,难以执行。以这个熟悉的每日交流为例:
“你晚餐想吃什么?”
“我对任何事情都没问题。”
“寿司怎么样?”
“嗯,我昨天收到了。”
“披萨?”
“睡觉前有点重。”
如果人类难以相互理解,我们怎么能指望机器可靠地实现我们的愿望? 这对于旨在代表人类操作计算机的代理来说非常重要。计算机系统需要透彻地了解人类,才能根据需要执行他们的命令。换句话说,可靠的代理是能够解读人类歧义的代理。
计算机代码恰恰相反:显式、严格,因此可靠。这造成了一种有趣的张力:如果你想要一个自然、人性化的界面,你就要在决定论上妥协。如果你想要可靠的执行,你需要确定性代码。如今,人工智能系统坐落在这两极之间,令人不安。
解决这种紧张局势的一种方法是赋予代理两个 “大脑”:一个用自然语言与人类交谈,另一个用确定性代码执行任务。Simular 的代理使用 Simulang 将模棱两可的自然语言指令翻译成结构化、可重复的命令的系统。一旦在代码中呈现,操作就会变得既可重复又可管理。
熵与顺序
将人类的歧义转化为代码只能解决代理挑战的一半。可靠性本身就是抵抗熵的结果,熵是宇宙不可阻挡地走向混乱的过程。房间变得凌乱。员工士气低落。组织的存在正是为了对人类的混乱施加秩序,将不确定性转化为可预测性。代码是将无序的人类思想转化为有序的确定性系统的工具。
这就是为什么当今人工智能最紧迫的挑战不是无状态问题——独立文本或图像的生成,这些问题在很大程度上已经得到解决——而是有状态问题。有状态系统不断观察其环境,对变化做出反应,并做出相应的调整。计算机环境是这种复杂性的缩影:文件夹移动、文件消失、应用程序交织在一起。真实的工作流程在不断变化、不确定的环境中运行,而人类则会迅速学习和适应。像人类一样工作的代理也需要适应现实场景。
这使我们陷入了一个悖论:在混乱的环境中,最可靠的代理可能会变得不可靠。
可靠性与灵活性
现实世界充满了变化和状态系统:计算机、初创企业、社会。在这样的混乱中,有价值的工作需要适应能力。存活下来的人是那些能快速适应的人——这一观察结果暴露了预训练的局限性,即模型在大型数据集上训练过一次,并且只能在低变化的环境中正常运行。
在混乱的现实世界中,我们需要制造能做到的代理 正确 他们的错误迅速而及时。这就是 持续学习。如果代理能够检测出错误并足够快地纠正路线,则其不稳定性几乎不可见。
这种方法有一个缺点:第一个探索问题的人通常会为失败付出代价。至少就目前而言,切实可行的解决方案是折衷方案。当代理检测到异常情况时,它应该暂停并标记问题,而不是向前犯错误。然后,专业系统(或人员)可以在代理恢复之前诊断和修复问题。这会将风险集中在专家之间,而不是将其广泛分配。
这种解决方案——人员处理高价值的专业工作,而代理人则专注于更可预测的重复性任务,这是假设分工的。但是,如果这个假设是错误的呢?长期愿景是人类专注于一次性判断,而人工智能则处理重复的、可预测的任务。但是,如果这一假设被证明是错误的——如果事实证明人工智能比人类更擅长执行一次性任务,在可靠工作方面更差——我们将面临一个不理想的情况:人工智能取代精英做出高价值的一次性判断,而人类则只能从事重复劳动。