Codex 与 Simulang：哪个 AI 代理能更好地控制您的计算机

你的编程代理可以编写代码。但它能提交报销单吗？能打开桌面应用吗？能填写需要登录才能访问的表单吗？

这个问题催生了AI工具领域中一个全新类别：计算机使用代理。OpenAI 的 Codex 现在包含一项计算机使用功能，让代理能够查看你的屏幕并通过截图和鼠标点击与应用程序交互。Simular 的 Simulang 采取了截然不同的方法——它读取操作系统的辅助功能树，并编写确定性脚本，这些脚本在执行时无需大型语言模型（LLM）的介入。

我对两者在同一组桌面自动化任务上进行了测试。以下是我的发现——以及何时应该选择其中一个而非另一个。

‍

什么是 Codex？

Codex 是 OpenAI 的 AI 代理 平台。最初于 2021 年作为代码生成模型推出，Codex 已发展成为一个功能齐全的代理，它可以编写代码、运行终端命令、浏览网页，并且——根据其最新更新——通过计算机使用功能控制桌面应用程序。

计算机使用功能的工作原理是截取用户屏幕的截图，将其发送到视觉模型，并返回鼠标/键盘操作。代理看到你所看到的一切——一个像素网格——并决定在哪里点击、输入什么以及何时滚动。

Codex 默认在云沙盒中运行。计算机使用功能通过插件架构将其扩展到本地桌面。

‍

什么是 Simulang？

Simulang 是一种用于自动化浏览器、原生应用和操作系统级工作流的脚本语言。它是开源的，通过

‍npm install -g @simular-ai/simulang

安装，并生成通过操作系统辅助功能 API 与应用程序交互的 TypeScript 脚本。Simulang 由 Simular。

它不通过查看截图，而是 Simulang 读取辅助功能树 ——与 VoiceOver 和 JAWS 等屏幕阅读器使用的结构化界面相同。每个按钮、文本字段、菜单项和标签都作为命名且可引用寻址的元素公开。脚本通过引用而非像素坐标进行交互。

Simulang 旨在 作为编码代理的输出格式。Claude Code、Cursor 或任何由大型语言模型（LLM）驱动的编码工具可以一次性编写一个 Simulang 脚本，该脚本可以确定性地重放——运行时无需大型语言模型。

‍

How we evaluated

Simulang 读取蓝图；Codex 查看照片

这是核心的架构差异，它会影响后续的一切。

Codex 计算机使用方式 截取屏幕截图（通常为 1920x1080 像素），将其发送给视觉模型，并询问：“提交按钮在哪里？”模型返回坐标。Codex 将鼠标移动到这些坐标并点击。

这种方法存在三个问题：

分辨率依赖性：如果窗口大小调整，坐标会改变。如果操作系统缩放比例改变，坐标会改变。如果弹出对话框并改变布局，坐标就会出错。
模糊性：两个外观相同但用途不同的按钮（例如，嵌套对话框中的两个“保存”按钮）仅凭像素无法区分。
速度：每个操作都需要完整的屏幕截图、视觉模型推理（500毫秒-2秒）和响应。一个 10 步的工作流程需要 10-20 秒的纯推理时间。

Simulang 读取可访问性树，并为每个元素分配一个稳定的引用 ID。脚本会说 tree.activate("ref_42") — 而不是“点击像素 (847, 312)”。如果窗口移动，该引用仍然有效。如果操作系统缩放比例改变，该引用仍然有效。如果弹出对话框，Simulang 会读取新的树并根据其语义标识找到该元素。

每个操作的响应时间：毫秒。一个 10 步的工作流程在不到一秒的时间内完成。

‍

Simulang 脚本无需大型语言模型即可运行；Codex 的每个操作都需要大型语言模型。

这种差异决定了成本和可靠性。

Codex 电脑使用 每次交互都需要调用大型语言模型 (LLM)。打开菜单：调用 LLM。点击按钮：调用 LLM。在字段中输入：调用 LLM。每次调用都会消耗令牌、增加延迟，并可能导致误解。如果运行相同的流程 100 次，您将支付 100 x N 次 LLM 调用费用（其中 N 是步骤数）。

Simulang 只在脚本编写时调用一次 LLM。编码代理（如 Claude Code、Cursor 等）编写 Simulang 脚本，此后脚本将确定性地执行。运行 100 次，您无需支付额外的 LLM 调用费用。

成本差异并非微不足道。对于一个每周运行 5 天、每天 20 个步骤的工作流程：

Codex：20 步 x 5 天 x 4 周 = 每月 400 次 LLM 调用。按每次调用约 0.01-0.03 美元（视觉模型定价）计算，单个自动化每月费用为 4-12 美元。
Simulang：1 次 LLM 调用用于编写脚本 + 0 美元用于运行。总计：一次性支付 0.03-0.10 美元。

‍

Simulang 控制浏览器和原生应用；Codex 电脑使用通过任何事物的截图工作

这两种工具都可以与屏幕上出现的任何应用程序进行交互，但其机制有所不同。

Codex 在设计上与应用程序无关：只要它以像素形式可见，Codex 就可以尝试与其交互。这对于没有 API、没有辅助功能支持且没有自动化接口的应用程序非常有用。传统的企业软件、自定义渲染的画布以及远程桌面会话都适用。

Simulang 原生处理浏览器（通过 Playwright 风格的辅助功能 API），并扩展到任何公开辅助功能数据的原生应用程序——这几乎包括所有标准的 macOS、Windows 和 Linux 应用程序。对于极少数不公开辅助功能数据的应用程序，Simulang 会退回到视觉定位：它会截取屏幕截图并使用视觉模型来定位目标元素。

实际区别在于：Simulang 在 95% 的交互中采用快速、确定性的路径（辅助功能树），在剩余 5% 的交互中采用缓慢、概率性的路径（视觉）。Codex 在 100% 的交互中都采用缓慢、概率性的路径。

‍

Codex 在云沙箱中运行；Simulang 在您的机器上运行

Codex 默认在云虚拟机中运行。您的代码、文件和凭据都会上传到 OpenAI 的基础设施。尽管“计算机使用”插件将 Codex 扩展到了本地桌面，但其核心架构仍是云优先的。

Simulang 完全在您的本地机器上运行。脚本针对您的实际桌面执行——包括您的浏览器会话、已登录的应用程序和文件系统。不会上传任何内容。除非脚本明确将数据发送到某个地方，否则任何内容都不会离开您的机器。

对于有合规性要求（如 SOC 2、HIPAA、金融法规）的企业来说，本地执行通常是不可协商的。对于希望自动化涉及身份验证会话（如电子邮件、银行、内部工具）工作流的个人开发者而言，本地执行意味着无需共享凭据。

‍

Comparison Summary

Dimension	Codex Computer Use	Simulang
Best for	Non-technical users wanting natural language desktop control	Developers building repeatable, production-grade automations
How it works	Screenshots + vision model per action	Accessibility tree + deterministic scripts
Perception	Pixel-level (screenshots)	Semantic (accessibility tree) + vision fallback
Speed per action	2-4 seconds (LLM inference)	~50 milliseconds (local tree read)
LLM at runtime	Required for every action	Not required (scripts replay deterministically)
Scope	Anything visible as pixels	Browsers + native apps + system dialogs
Execution	Cloud sandbox (with local plugin option)	Local machine only
Data privacy	Screenshots sent to OpenAI servers	Everything runs locally, nothing uploaded
Cost per run	$0.01-0.03 per action (token costs)	$0 (after initial script authoring)
Pricing	ChatGPT Pro $200/month or API pay-per-use	Free and open source
Open source	Partially (Codex CLI is open source)	Yes (fully open source)

Codex 计算机使用真正更胜一筹之处

公平很重要。以下是 Codex 真正的优势所在：

非技术用户零配置：Codex 的截图方法无需理解可访问性树、引用或脚本。您只需用自然语言描述您的需求，代理就会尝试执行。Simulang 则需要编写（或生成）脚本。
适用于远程桌面和虚拟机：Codex 可以控制显示在您屏幕上的远程桌面会话。Simulang 需要本地操作系统级别的可访问性 API 访问权限，而远程桌面协议通常不暴露这些权限。
集成编码环境：Codex 是一个功能齐全的编码代理，具备终端访问、文件编辑和代码执行能力。Simulang 只是一个桌面自动化框架——它不编写您的应用程序代码。
应用程序无关性：只要它以像素形式呈现，Codex 就可以尝试与其交互——包括旧版企业软件、自定义渲染的画布以及完全没有可访问性支持的专有应用程序。

‍

Simulang 真正更胜一筹之处

速度：Simulang 的每个操作大约需要 50 毫秒（读取可访问性树）。Codex 的每个操作需要 2-4 秒（截图 + 视觉模型推理）。Simulang 上一个 15 步的工作流在不到一秒内完成；而在 Codex 上，相同的工作流需要 30-60 秒。
可靠性: Simulang 通过语义引用而非像素坐标进行交互。即使窗口大小调整、弹出对话框或操作系统缩放发生变化，该引用仍然有效。Codex 的坐标在任何布局变化时都会失效。
规模化成本: Simulang 脚本在首次编写后，每次执行成本为 0 美元。Codex 在每次运行的每个操作都需要调用大型语言模型 (LLM)——一个 20 步的日常工作流程在 Codex 上每月花费 4-12 美元，而在 Simulang 上只需一次性支付 0.05 美元。
隐私与合规性: Simulang 完全在您的本地机器上运行。没有屏幕截图会离开您的计算机。不共享任何凭据。Codex 会将屏幕截图发送到 OpenAI 的云端进行视觉模型处理。
跨平台: Simulang 目前支持 macOS、Windows 和 Linux。Codex 的计算机使用支持因平台和插件可用性而异。
原生应用控制: Simulang 通过相同的辅助功能 API 驱动浏览器和原生桌面应用程序（Excel、Slack、Finder、电子邮件客户端、系统对话框）。Codex 将一切都视为像素——虽然功能上可行，但缺乏对其点击内容的语义理解。
确定性回放: 今天编写的 Simulang 脚本在明天、下周和下个月都能以相同的方式运行，无需大型语言模型 (LLM) 参与。Codex 必须在每次执行时重新解释屏幕，从而在每次运行中引入可变性。

‍

定价

Codex

作为 ChatGPT Pro 的一部分（每月 200 美元）或通过 OpenAI API 提供
计算机使用操作以视觉模型费率消耗代币
订阅中包含云沙盒计算

Simulang

开源，免费安装和使用
无需按次付费 — 脚本在本地运行，无需调用LLM
LLM成本仅在脚本编写时产生（使用您自己的Claude Code、Cursor或Copilot订阅）

‍

Codex 与 Simulang：您应该选择哪一个？

如果您符合以下情况，请选择Codex：

您需要一个通用型AI编码代理，并且它还能控制您的桌面
您更喜欢自然语言指令而非脚本编写
您需要自动化远程桌面会话或虚拟机
您已身处OpenAI/ChatGPT生态系统

如果您符合以下情况，请选择Simulang：

您需要确定性、可重复的桌面自动化，且无需持续产生LLM成本
您希望自动化跨浏览器和原生桌面应用的工作流程
您注重速度 — 毫秒级响应时间而非每操作数秒
您需要本地执行以满足合规性或凭证安全要求
您希望您的编码代理（Claude Code、Cursor）编写可移交的自动化脚本

对于大多数构建生产自动化工作流的开发者而言，Simulang是更实用的选择：一次编写脚本，永久运行，无需为每次执行付费。对于临时性桌面任务，如果您想让AI指向屏幕并说“执行此操作”，Codex Computer Use上手更快。

这两种工具并非互斥。您可以使用Codex（或Claude Code、Cursor）来编写Simulang脚本，从而两全其美：在编写时利用LLM智能，在运行时实现确定性执行。

‍

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai