])

Anthropic 推出了 Claude Cowork——一项功能,让 Claude 能够通过截图和鼠标点击来控制你的 Mac 或 Windows 桌面。它可以在你观看的同时打开应用程序、填写表单和导航菜单。第一次看到它时,你会觉得它像魔法一样。
然后你可能会看到它因为两个图标看起来相似而点错了按钮。或者在视觉模型处理下一张截图时,每次操作之间等待 4 秒。或者你会想,当截图被发送到 Anthropic 的服务器进行解释时,你的银行凭证会发生什么?
Simulang 解决了这三个问题。它读取辅助功能树而不是截图,在毫秒而不是秒内执行,并且完全在你的本地机器上运行。但 Cowork 也有其优势——特别是对于那些希望指着屏幕说“做这个”的非技术用户而言。
我在相同的桌面工作流程中测试了两者。以下是坦诚的比较。

Claude Cowork 是 Anthropic 的一项计算机使用功能,可在 Claude 桌面应用程序中使用。它赋予 Claude 通过截图查看屏幕、移动鼠标、点击元素和输入文本的能力——有效地像人类一样控制你的桌面。
交互循环是这样的:Cowork 截取屏幕,将其发送到 Claude 的视觉模型,从像素中识别 UI 元素,决定采取什么行动,执行该行动,再截取一张屏幕以验证,然后重复。每一个动作都经过这个“截图-推理-行动”的循环。
Cowork 的诞生源于 Anthropic 的非技术团队开始绕过聊天界面,使用 Claude Code 来完成知识工作任务。Anthropic 将 Cowork 构建为这种计算机使用能力的简化版本,目标用户是研究人员、分析师、运营团队以及任何日常处理文档和数据的人员。
定价: Claude Pro(每月 20 美元)、团队版(每席位每月 30 美元)和企业版套餐。每次操作都会通过截图处理管道消耗 API 令牌。

Simulang 是一个开源的 JavaScript 库,它通过读取操作系统的辅助功能树(与屏幕阅读器使用的结构化数据相同)来自动化桌面应用程序。它不查看像素, Simulang 理解每个 UI 元素的角色 (按钮、文本字段、菜单项)、名称、状态和确切位置。
你用 JavaScript 编写自动化脚本。这些脚本通过精确的元素引用(而非坐标猜测)与任何桌面应用程序(浏览器、电子表格、电子邮件客户端、终端)进行交互。脚本一旦编写完成,即可立即重放,且不消耗任何 API 令牌。
Simulang 驱动 Sai,这是一个AI代理,它将Simulang作为其执行层。当Sai自动化工作流程时,它会利用Simulang的辅助功能树。
定价: Simulang是免费且开源的。Sai(基于Simulang构建的AI代理)提供免费套餐和每月20美元起的付费计划。
Cowork将您的整个屏幕捕获为图像,将其缩小以适应Claude的上下文窗口,并发送到Anthropic的服务器。视觉模型会根据截图的外观来识别按钮、菜单、文本字段和其他元素。然后返回鼠标点击的坐标。
这种方法存在固有的准确性上限。微小的UI元素、低对比度文本以及外观相似的图标都可能让视觉模型感到困惑。一个包含20个项目的下拉菜单,在视觉模型看来与能够阅读每一行的人类看来是不同的。当Cowork误点击时,它会再次截图,意识到错误,并尝试恢复——这会增加时间和令牌消耗。

Simulang查询操作系统的辅助功能API(Windows上的UI Automation,macOS上的AXTree)。这会返回屏幕上每个UI元素的结构化树,包括技术上位于屏幕外或隐藏在其他窗口后面的元素。每个元素都带有其角色、名称、值和状态——无需解释。
点击按钮意味着通过其辅助功能标识符来引用它,而不是猜测它在屏幕上的位置。这没有歧义。一个名为“提交”的按钮永远是“提交”,无论屏幕分辨率、字体大小、深色模式或窗口位置如何。
Claude Cowork的每个操作都遵循以下流程:
每次操作总计: 3到5秒。
Simulang 的工作流程:
每次操作总计: 不到50毫秒。
一个10步的工作流程,Cowork 需要30到50秒。Simulang 在不到一秒内完成。在一个20步的表单填写任务中,当您还在阅读这句话时,Cowork 已经工作了近两分钟,而 Simulang 则早已完成。
这不是微不足道的差异。这是一个100倍的速度差距,并且每一步都会累积。
Claude Cowork 的准确性完全取决于视觉模型对每个屏幕截图的解读程度。自最初的 Computer Use 预览版以来,Anthropic 已显著改进了这一点,但某些场景仍然会持续引发问题:
Simulang 没有这些问题。它直接从操作系统读取元素元数据。一个按钮就是一个按钮,它有名称和位置,无论它在屏幕上如何渲染。对于辅助功能树中存在的任何元素,其准确性几乎达到 100%。
但需要注意的是:有些应用程序的辅助功能实现不佳。游戏、自定义渲染的画布以及一些 Electron 应用程序可能不会通过辅助功能 API 暴露所有元素。对于这些情况,Simulang 提供基于视觉的定位作为备用方案——但主要的交互路径始终是结构化树。
Claude Cowork 每次执行都会消耗 token。每个屏幕截图大约消耗 1,500 到 3,000 个 token(取决于分辨率),此外还有每次决策所需的推理 token。一个 20 步的工作流每次运行可能消耗 40,000 到 80,000 个 token。
如果每天运行该工作流 10 次,每月运行 20 天,您每月将消耗数百万个 token——即使是专业版套餐,您也会注意到使用量。
Simulang 脚本回放无需任何成本。您只需编写一次自动化脚本,它就可以以零边际成本永久运行。没有 API 调用,没有 token 消耗,没有使用限制。这使得 Simulang 在重复性工作流方面更具经济性。
这正是差异对于注重安全的团队而言变得至关重要的地方。
Claude Cowork 会将您桌面的完整截图发送到 Anthropic 的服务器进行处理。在捕获时您屏幕上可见的一切——密码、财务数据、机密文件、个人消息——都会传输到第三方 API。Anthropic 的数据保留政策适用。
Simulang 完全在您的本地机器上运行。辅助功能树在本地查询。操作在本地执行。没有数据离开您的计算机。如果您将 Simulang 与本地 LLM 结合用于推理层,整个流程将与互联网完全隔离(物理隔离)。
对于有合规性要求的行业——例如医疗保健(HIPAA)、金融(SOX)、法律(律师-客户特权)——这种区别不是偏好,而是一项要求。
Cowork 具有 Simulang 无法比拟的真正优势:
零代码交互。 您只需用简单的英语描述您的需求,Cowork 就能找出如何实现。除了输入提示词,无需编写脚本、无需设置、没有学习曲线。对于需要按主题将 50 份 PDF 文件整理到文件夹中的研究人员来说,Cowork 无需编写一行代码即可完成。
视觉理解能力。 Cowork 可以解读辅助功能树未描述的图表、图形、图像和视觉布局。如果您需要 Claude“查看此仪表板并总结趋势”,Cowork 可以做到,而 Simulang 不能,因为视觉内容不在辅助功能树中。
对话式迭代。 您可以观察 Cowork 的工作,随时打断它,进行纠正,并用自然语言优化其方法。这种互动感觉就像与一位能看到您屏幕的同事结对工作。Simulang 则需要您修改代码才能改变其行为。
广泛的应用支持。 由于 Cowork 通过屏幕截图工作,它可以与任何渲染像素的应用程序进行交互——包括定制的内部工具、传统软件以及使用非标准 UI 框架的 Web 应用程序。它不依赖于辅助功能 API 的实现质量。
Simulang 具有 Cowork 无法复制的结构性优势:
生产级可靠性。 当您需要自动化程序运行 1,000 次而没有一次误点击时,Simulang 的确定性元素定位是唯一的选择。Cowork 的概率视觉模型最终会在大规模运行时出错。
速度至关重要的工作流程。 任何对执行时间有要求的工作流程——CI/CD 流水线、实时数据录入、高频监控——都需要 Simulang 的毫秒级执行速度。Cowork 每次操作数秒的延迟使其不适用于时间敏感的自动化。
成本敏感型操作。 每天运行数百个自动化工作流程的团队无法承受按次执行的定价。Simulang 的零成本回放使得大规模自动化在经济上可行。
敏感环境。 任何不应将桌面截图发送到第三方云服务的场景。包括政府、医疗保健、金融、法律以及任何对数据驻留有严格要求的组织。
程序化集成。 Simulang 脚本可以嵌入到 CI/CD 流水线中,从其他应用程序调用,通过 cron 作业调度,并组合成复杂的多步骤工作流程。Cowork 仅限于在 Claude 桌面应用程序中进行交互式会话。