])

Codex 与 Simulang:哪个 AI 代理能更好地控制您的计算机

你的编程代理可以编写代码。但它能提交报销单吗?能打开桌面应用吗?能填写需要登录才能访问的表单吗?

这个问题催生了AI工具领域中一个全新类别:计算机使用代理。OpenAI 的 Codex 现在包含一项计算机使用功能,让代理能够查看你的屏幕并通过截图和鼠标点击与应用程序交互。Simular 的 Simulang 采取了截然不同的方法——它读取操作系统的辅助功能树,并编写确定性脚本,这些脚本在执行时无需大型语言模型(LLM)的介入。

我对两者在同一组桌面自动化任务上进行了测试。以下是我的发现——以及何时应该选择其中一个而非另一个。

什么是 Codex?

Codex 是 OpenAI 的 AI 代理 平台。最初于 2021 年作为代码生成模型推出,Codex 已发展成为一个功能齐全的代理,它可以编写代码、运行终端命令、浏览网页,并且——根据其最新更新——通过计算机使用功能控制桌面应用程序。

计算机使用功能的工作原理是截取用户屏幕的截图,将其发送到视觉模型,并返回鼠标/键盘操作。代理看到你所看到的一切——一个像素网格——并决定在哪里点击、输入什么以及何时滚动。

Codex 默认在云沙盒中运行。计算机使用功能通过插件架构将其扩展到本地桌面。

什么是 Simulang?

Simulang 是一种用于自动化浏览器、原生应用和操作系统级工作流的脚本语言。它是开源的,通过

‍npm install -g @simular-ai/simulang

安装,并生成通过操作系统辅助功能 API 与应用程序交互的 TypeScript 脚本。Simulang 由 Simular

它不通过查看截图,而是 Simulang 读取辅助功能树 ——与 VoiceOver 和 JAWS 等屏幕阅读器使用的结构化界面相同。每个按钮、文本字段、菜单项和标签都作为命名且可引用寻址的元素公开。脚本通过引用而非像素坐标进行交互。

Simulang 旨在 作为编码代理的输出格式。Claude Code、Cursor 或任何由大型语言模型(LLM)驱动的编码工具可以一次性编写一个 Simulang 脚本,该脚本可以确定性地重放——运行时无需大型语言模型。

How we evaluated

Simulang 读取蓝图;Codex 查看照片

这是核心的架构差异,它会影响后续的一切。

Codex 计算机使用方式 截取屏幕截图(通常为 1920x1080 像素),将其发送给视觉模型,并询问:“提交按钮在哪里?”模型返回坐标。Codex 将鼠标移动到这些坐标并点击。

这种方法存在三个问题:

  1. 分辨率依赖性:如果窗口大小调整,坐标会改变。如果操作系统缩放比例改变,坐标会改变。如果弹出对话框并改变布局,坐标就会出错。
  2. 模糊性:两个外观相同但用途不同的按钮(例如,嵌套对话框中的两个“保存”按钮)仅凭像素无法区分。
  3. 速度:每个操作都需要完整的屏幕截图、视觉模型推理(500毫秒-2秒)和响应。一个 10 步的工作流程需要 10-20 秒的纯推理时间。

Simulang 读取可访问性树,并为每个元素分配一个稳定的引用 ID。脚本会说 tree.activate("ref_42") — 而不是“点击像素 (847, 312)”。如果窗口移动,该引用仍然有效。如果操作系统缩放比例改变,该引用仍然有效。如果弹出对话框,Simulang 会读取新的树并根据其语义标识找到该元素。

每个操作的响应时间:毫秒。一个 10 步的工作流程在不到一秒的时间内完成。

Simulang 脚本无需大型语言模型即可运行;Codex 的每个操作都需要大型语言模型。

这种差异决定了成本和可靠性。

Codex 电脑使用 每次交互都需要调用大型语言模型 (LLM)。打开菜单:调用 LLM。点击按钮:调用 LLM。在字段中输入:调用 LLM。每次调用都会消耗令牌、增加延迟,并可能导致误解。如果运行相同的流程 100 次,您将支付 100 x N 次 LLM 调用费用(其中 N 是步骤数)。

Simulang 只在脚本编写时调用一次 LLM。编码代理(如 Claude Code、Cursor 等)编写 Simulang 脚本,此后脚本将确定性地执行。运行 100 次,您无需支付额外的 LLM 调用费用。

成本差异并非微不足道。对于一个每周运行 5 天、每天 20 个步骤的工作流程:

  • Codex:20 步 x 5 天 x 4 周 = 每月 400 次 LLM 调用。按每次调用约 0.01-0.03 美元(视觉模型定价)计算,单个自动化每月费用为 4-12 美元。
  • Simulang:1 次 LLM 调用用于编写脚本 + 0 美元用于运行。总计:一次性支付 0.03-0.10 美元。

Simulang 控制浏览器和原生应用;Codex 电脑使用通过任何事物的截图工作

这两种工具都可以与屏幕上出现的任何应用程序进行交互,但其机制有所不同。

Codex 在设计上与应用程序无关:只要它以像素形式可见,Codex 就可以尝试与其交互。这对于没有 API、没有辅助功能支持且没有自动化接口的应用程序非常有用。传统的企业软件、自定义渲染的画布以及远程桌面会话都适用。

Simulang 原生处理浏览器(通过 Playwright 风格的辅助功能 API),并扩展到任何公开辅助功能数据的原生应用程序——这几乎包括所有标准的 macOS、Windows 和 Linux 应用程序。对于极少数不公开辅助功能数据的应用程序,Simulang 会退回到视觉定位:它会截取屏幕截图并使用视觉模型来定位目标元素。

实际区别在于:Simulang 在 95% 的交互中采用快速、确定性的路径(辅助功能树),在剩余 5% 的交互中采用缓慢、概率性的路径(视觉)。Codex 在 100% 的交互中都采用缓慢、概率性的路径。

Codex 在云沙箱中运行;Simulang 在您的机器上运行

Codex 默认在云虚拟机中运行。您的代码、文件和凭据都会上传到 OpenAI 的基础设施。尽管“计算机使用”插件将 Codex 扩展到了本地桌面,但其核心架构仍是云优先的。

Simulang 完全在您的本地机器上运行。脚本针对您的实际桌面执行——包括您的浏览器会话、已登录的应用程序和文件系统。不会上传任何内容。除非脚本明确将数据发送到某个地方,否则任何内容都不会离开您的机器。

对于有合规性要求(如 SOC 2、HIPAA、金融法规)的企业来说,本地执行通常是不可协商的。对于希望自动化涉及身份验证会话(如电子邮件、银行、内部工具)工作流的个人开发者而言,本地执行意味着无需共享凭据。

Comparison Summary

Dimension Codex Computer Use Simulang
Best for Non-technical users wanting natural language desktop control Developers building repeatable, production-grade automations
How it works Screenshots + vision model per action Accessibility tree + deterministic scripts
Perception Pixel-level (screenshots) Semantic (accessibility tree) + vision fallback
Speed per action 2-4 seconds (LLM inference) ~50 milliseconds (local tree read)
LLM at runtime Required for every action Not required (scripts replay deterministically)
Scope Anything visible as pixels Browsers + native apps + system dialogs
Execution Cloud sandbox (with local plugin option) Local machine only
Data privacy Screenshots sent to OpenAI servers Everything runs locally, nothing uploaded
Cost per run $0.01-0.03 per action (token costs) $0 (after initial script authoring)
Pricing ChatGPT Pro $200/month or API pay-per-use Free and open source
Open source Partially (Codex CLI is open source) Yes (fully open source)

Codex 计算机使用真正更胜一筹之处

公平很重要。以下是 Codex 真正的优势所在:

  • 非技术用户零配置:Codex 的截图方法无需理解可访问性树、引用或脚本。您只需用自然语言描述您的需求,代理就会尝试执行。Simulang 则需要编写(或生成)脚本。
  • 适用于远程桌面和虚拟机:Codex 可以控制显示在您屏幕上的远程桌面会话。Simulang 需要本地操作系统级别的可访问性 API 访问权限,而远程桌面协议通常不暴露这些权限。
  • 集成编码环境:Codex 是一个功能齐全的编码代理,具备终端访问、文件编辑和代码执行能力。Simulang 只是一个桌面自动化框架——它不编写您的应用程序代码。
  • 应用程序无关性:只要它以像素形式呈现,Codex 就可以尝试与其交互——包括旧版企业软件、自定义渲染的画布以及完全没有可访问性支持的专有应用程序。

Simulang 真正更胜一筹之处

  • 速度:Simulang 的每个操作大约需要 50 毫秒(读取可访问性树)。Codex 的每个操作需要 2-4 秒(截图 + 视觉模型推理)。Simulang 上一个 15 步的工作流在不到一秒内完成;而在 Codex 上,相同的工作流需要 30-60 秒。
  • 可靠性: Simulang 通过语义引用而非像素坐标进行交互。即使窗口大小调整、弹出对话框或操作系统缩放发生变化,该引用仍然有效。Codex 的坐标在任何布局变化时都会失效。
  • 规模化成本: Simulang 脚本在首次编写后,每次执行成本为 0 美元。Codex 在每次运行的每个操作都需要调用大型语言模型 (LLM)——一个 20 步的日常工作流程在 Codex 上每月花费 4-12 美元,而在 Simulang 上只需一次性支付 0.05 美元。
  • 隐私与合规性: Simulang 完全在您的本地机器上运行。没有屏幕截图会离开您的计算机。不共享任何凭据。Codex 会将屏幕截图发送到 OpenAI 的云端进行视觉模型处理。
  • 跨平台: Simulang 目前支持 macOS、Windows 和 Linux。Codex 的计算机使用支持因平台和插件可用性而异。
  • 原生应用控制: Simulang 通过相同的辅助功能 API 驱动浏览器和原生桌面应用程序(Excel、Slack、Finder、电子邮件客户端、系统对话框)。Codex 将一切都视为像素——虽然功能上可行,但缺乏对其点击内容的语义理解。
  • 确定性回放: 今天编写的 Simulang 脚本在明天、下周和下个月都能以相同的方式运行,无需大型语言模型 (LLM) 参与。Codex 必须在每次执行时重新解释屏幕,从而在每次运行中引入可变性。

定价

Codex

Simulang

  • 开源,免费安装和使用
  • 无需按次付费 — 脚本在本地运行,无需调用LLM
  • LLM成本仅在脚本编写时产生(使用您自己的Claude Code、Cursor或Copilot订阅)

Codex 与 Simulang:您应该选择哪一个?

如果您符合以下情况,请选择Codex:

  • 您需要一个通用型AI编码代理,并且它还能控制您的桌面
  • 您更喜欢自然语言指令而非脚本编写
  • 您需要自动化远程桌面会话或虚拟机
  • 您已身处OpenAI/ChatGPT生态系统

如果您符合以下情况,请选择Simulang:

  • 您需要确定性、可重复的桌面自动化,且无需持续产生LLM成本
  • 您希望自动化跨浏览器和原生桌面应用的工作流程
  • 您注重速度 — 毫秒级响应时间而非每操作数秒
  • 您需要本地执行以满足合规性或凭证安全要求
  • 您希望您的编码代理(Claude Code、Cursor)编写可移交的自动化脚本

对于大多数构建生产自动化工作流的开发者而言,Simulang是更实用的选择:一次编写脚本,永久运行,无需为每次执行付费。对于临时性桌面任务,如果您想让AI指向屏幕并说“执行此操作”,Codex Computer Use上手更快。

这两种工具并非互斥。您可以使用Codex(或Claude Code、Cursor)来编写Simulang脚本,从而两全其美:在编写时利用LLM智能,在运行时实现确定性执行。

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai

常见问题

})