])

你的编程代理可以编写代码。但它能提交报销单吗?能打开桌面应用吗?能填写需要登录才能访问的表单吗?
这个问题催生了AI工具领域中一个全新类别:计算机使用代理。OpenAI 的 Codex 现在包含一项计算机使用功能,让代理能够查看你的屏幕并通过截图和鼠标点击与应用程序交互。Simular 的 Simulang 采取了截然不同的方法——它读取操作系统的辅助功能树,并编写确定性脚本,这些脚本在执行时无需大型语言模型(LLM)的介入。
我对两者在同一组桌面自动化任务上进行了测试。以下是我的发现——以及何时应该选择其中一个而非另一个。

Codex 是 OpenAI 的 AI 代理 平台。最初于 2021 年作为代码生成模型推出,Codex 已发展成为一个功能齐全的代理,它可以编写代码、运行终端命令、浏览网页,并且——根据其最新更新——通过计算机使用功能控制桌面应用程序。
计算机使用功能的工作原理是截取用户屏幕的截图,将其发送到视觉模型,并返回鼠标/键盘操作。代理看到你所看到的一切——一个像素网格——并决定在哪里点击、输入什么以及何时滚动。
Codex 默认在云沙盒中运行。计算机使用功能通过插件架构将其扩展到本地桌面。

Simulang 是一种用于自动化浏览器、原生应用和操作系统级工作流的脚本语言。它是开源的,通过
npm install -g @simular-ai/simulang安装,并生成通过操作系统辅助功能 API 与应用程序交互的 TypeScript 脚本。Simulang 由 Simular。
它不通过查看截图,而是 Simulang 读取辅助功能树 ——与 VoiceOver 和 JAWS 等屏幕阅读器使用的结构化界面相同。每个按钮、文本字段、菜单项和标签都作为命名且可引用寻址的元素公开。脚本通过引用而非像素坐标进行交互。
Simulang 旨在 作为编码代理的输出格式。Claude Code、Cursor 或任何由大型语言模型(LLM)驱动的编码工具可以一次性编写一个 Simulang 脚本,该脚本可以确定性地重放——运行时无需大型语言模型。
这是核心的架构差异,它会影响后续的一切。
Codex 计算机使用方式 截取屏幕截图(通常为 1920x1080 像素),将其发送给视觉模型,并询问:“提交按钮在哪里?”模型返回坐标。Codex 将鼠标移动到这些坐标并点击。
这种方法存在三个问题:
Simulang 读取可访问性树,并为每个元素分配一个稳定的引用 ID。脚本会说 tree.activate("ref_42") — 而不是“点击像素 (847, 312)”。如果窗口移动,该引用仍然有效。如果操作系统缩放比例改变,该引用仍然有效。如果弹出对话框,Simulang 会读取新的树并根据其语义标识找到该元素。
每个操作的响应时间:毫秒。一个 10 步的工作流程在不到一秒的时间内完成。
这种差异决定了成本和可靠性。

Codex 电脑使用 每次交互都需要调用大型语言模型 (LLM)。打开菜单:调用 LLM。点击按钮:调用 LLM。在字段中输入:调用 LLM。每次调用都会消耗令牌、增加延迟,并可能导致误解。如果运行相同的流程 100 次,您将支付 100 x N 次 LLM 调用费用(其中 N 是步骤数)。
Simulang 只在脚本编写时调用一次 LLM。编码代理(如 Claude Code、Cursor 等)编写 Simulang 脚本,此后脚本将确定性地执行。运行 100 次,您无需支付额外的 LLM 调用费用。
成本差异并非微不足道。对于一个每周运行 5 天、每天 20 个步骤的工作流程:

这两种工具都可以与屏幕上出现的任何应用程序进行交互,但其机制有所不同。
Codex 在设计上与应用程序无关:只要它以像素形式可见,Codex 就可以尝试与其交互。这对于没有 API、没有辅助功能支持且没有自动化接口的应用程序非常有用。传统的企业软件、自定义渲染的画布以及远程桌面会话都适用。
Simulang 原生处理浏览器(通过 Playwright 风格的辅助功能 API),并扩展到任何公开辅助功能数据的原生应用程序——这几乎包括所有标准的 macOS、Windows 和 Linux 应用程序。对于极少数不公开辅助功能数据的应用程序,Simulang 会退回到视觉定位:它会截取屏幕截图并使用视觉模型来定位目标元素。
实际区别在于:Simulang 在 95% 的交互中采用快速、确定性的路径(辅助功能树),在剩余 5% 的交互中采用缓慢、概率性的路径(视觉)。Codex 在 100% 的交互中都采用缓慢、概率性的路径。
Codex 默认在云虚拟机中运行。您的代码、文件和凭据都会上传到 OpenAI 的基础设施。尽管“计算机使用”插件将 Codex 扩展到了本地桌面,但其核心架构仍是云优先的。
Simulang 完全在您的本地机器上运行。脚本针对您的实际桌面执行——包括您的浏览器会话、已登录的应用程序和文件系统。不会上传任何内容。除非脚本明确将数据发送到某个地方,否则任何内容都不会离开您的机器。
对于有合规性要求(如 SOC 2、HIPAA、金融法规)的企业来说,本地执行通常是不可协商的。对于希望自动化涉及身份验证会话(如电子邮件、银行、内部工具)工作流的个人开发者而言,本地执行意味着无需共享凭据。
公平很重要。以下是 Codex 真正的优势所在:
对于大多数构建生产自动化工作流的开发者而言,Simulang是更实用的选择:一次编写脚本,永久运行,无需为每次执行付费。对于临时性桌面任务,如果您想让AI指向屏幕并说“执行此操作”,Codex Computer Use上手更快。
这两种工具并非互斥。您可以使用Codex(或Claude Code、Cursor)来编写Simulang脚本,从而两全其美:在编写时利用LLM智能,在运行时实现确定性执行。