文章

在构建计算机使用代理时对立面统一

作者 Ang Li • 加利福尼亚州帕洛阿尔托 • 2026 年 2 月 23 日

构建使用计算机的代理需要解决各种对立面：人与机器、自然语言与编程语言、熵与秩序以及灵活性与可靠性。要了解这些紧张关系如何相互作用以实现机器智能，我们必须首先确定究竟是什么使代理变得 “好”。

—

人工智能有经过验证在计算机环境中与人类一样有能力，但是能力光靠人工通用智能是不够的。 可靠性 同样重要。

假设你雇用的候选人解决了所有面试问题，但在第一周犯了三个严重错误。面对紧迫的截止日期，你可能会求助于一位不那么令人印象深刻、完成率为99％的同事。

这个原理解释了为什么人工智能领域正在从 “pass @k” 基准测试——成功过一次——转向了 “pass^k” 指标该措施在类似条件下屡获成功。AGI 不仅是一个可以执行某些任务的系统，而且是一个可以执行某些任务的系统可靠一遍又一遍地交付成果，因为他们可以从过去的错误中吸取教训。

但是，是什么阻止了使用计算机的代理实现这种可靠性呢？挑战在一定程度上在于人类通信和计算机规则之间的根本区别。

人类语言与编程语言

在人工智能中实现可靠性需要我们面对一个尴尬的现实：尽管人类语言具有强大的交际能力、说服力和情感力，但语言却非常模棱两可，难以执行。以这个熟悉的每日交流为例：

‍“你晚餐想吃什么？”
“我对任何事情都没问题。”
“寿司怎么样？”
“嗯，我昨天收到了。”
“披萨？”
“睡觉前有点重。”

‍如果人类难以相互理解，我们怎么能指望机器可靠地实现我们的愿望？这对于旨在代表人类操作计算机的代理来说非常重要。计算机系统需要透彻地了解人类，才能根据需要执行他们的命令。换句话说，可靠的代理是能够解读人类歧义的代理。

计算机代码恰恰相反：显式、严格，因此可靠。这造成了一种有趣的张力：如果你想要一个自然、人性化的界面，你就要在决定论上妥协。如果你想要可靠的执行，你需要确定性代码。如今，人工智能系统坐落在这两极之间，令人不安。

解决这种紧张局势的一种方法是赋予代理两个 “大脑”：一个用自然语言与人类交谈，另一个用确定性代码执行任务。Simular 的代理使用 Simulang 将模棱两可的自然语言指令翻译成结构化、可重复的命令的系统。一旦在代码中呈现，操作就会变得既可重复又可管理。

熵与顺序

将人类的歧义转化为代码只能解决代理挑战的一半。可靠性本身就是抵抗熵的结果，熵是宇宙不可阻挡地走向混乱的过程。房间变得凌乱。员工士气低落。组织的存在正是为了对人类的混乱施加秩序，将不确定性转化为可预测性。代码是将无序的人类思想转化为有序的确定性系统的工具。

这就是为什么当今人工智能最紧迫的挑战不是无状态问题——独立文本或图像的生成，这些问题在很大程度上已经得到解决——而是有状态问题。有状态系统不断观察其环境，对变化做出反应，并做出相应的调整。计算机环境是这种复杂性的缩影：文件夹移动、文件消失、应用程序交织在一起。真实的工作流程在不断变化、不确定的环境中运行，而人类则会迅速学习和适应。像人类一样工作的代理也需要适应现实场景。

这使我们陷入了一个悖论：在混乱的环境中，最可靠的代理可能会变得不可靠。

可靠性与灵活性

现实世界充满了变化和状态系统：计算机、初创企业、社会。在这样的混乱中，有价值的工作需要适应能力。存活下来的人是那些能快速适应的人——这一观察结果暴露了预训练的局限性，即模型在大型数据集上训练过一次，并且只能在低变化的环境中正常运行。

在混乱的现实世界中，我们需要制造能做到的代理正确他们的错误迅速而及时。这就是 持续学习。如果代理能够检测出错误并足够快地纠正路线，则其不稳定性几乎不可见。

这种方法有一个缺点：第一个探索问题的人通常会为失败付出代价。至少就目前而言，切实可行的解决方案是折衷方案。当代理检测到异常情况时，它应该暂停并标记问题，而不是向前犯错误。然后，专业系统（或人员）可以在代理恢复之前诊断和修复问题。这会将风险集中在专家之间，而不是将其广泛分配。

这种解决方案——人员处理高价值的专业工作，而代理人则专注于更可预测的重复性任务，这是假设分工的。但是，如果这个假设是错误的呢？长期愿景是人类专注于一次性判断，而人工智能则处理重复的、可预测的任务。但是，如果这一假设被证明是错误的——如果事实证明人工智能比人类更擅长执行一次性任务，在可靠工作方面更差——我们将面临一个不理想的情况：人工智能取代精英做出高价值的一次性判断，而人类则只能从事重复劳动。

建造自主计算机并不意味着取代人类。这意味着合作。

将双手从电脑上解放出来。立即免费下载 Simular。

试试 Simular