隆重推出 SimuLang:桌面版 Playwright
作者 Ang Li • 加利福尼亚州帕洛阿尔托 • 2026 年 4 月 23 日

什么是 Simulang
Simulang 是一种用于自动化浏览器、原生应用和操作系统级工作流的脚本语言,旨在由AI代理编写。我们刚刚开源了 Simulang。您现在只需一条命令即可安装它:
我们为何构建它
最近,我注意到我在电脑上的时间已大大减少到每天大约两个小时。一年前,我轻松到了八岁。不同之处在于,随着该行业最终开发出可以像人类一样观察和行动的代理,计算机使用代理(CUA)正在变得越来越好。
Simulang 是一种可以控制所有这些的语言。
Simulang 的统一之处:一次编写,永久重放
上述功能都源于一个共同的架构决策,正是这个决策让其他一切成为可能:确定性重放。
这带来了两个定义产品特性的结果:
速度。每次操作耗时不到 50 毫秒——这只是查询本地 API 并执行点击所需的时间。无需图像捕获、上传或模型推理。一个 20 步的工作流可在不到一秒内完成。基于截图的代理在相同工作流中,每次操作需要 3 到 5 秒,这使得它们在规模化应用时慢 60 到 100 倍。
成本。Simulang 脚本在重放时不会消耗任何 token。您只需在首次编写脚本时(或 Sai 从自然语言生成脚本时)支付 LLM 推理费用。此后,每次后续执行都是免费的——没有 API 调用,没有云处理,也没有按次运行的费用。对于每天运行数百个自动化工作流的团队来说,这决定了方案是可行还是成本过高。这些并非渐进式改进。它们是选择正确抽象(语义元素而非像素、本地执行而非云推理、确定性引用而非概率性猜测)所带来的结构性优势。
Simulang 的功能
你可能会问:a single library and drive the operating system through its accessibility APIs -- the same structured interface that screen readers use.
Simulang 脚本可以:
- 打开任何应用程序——浏览器、原生桌面应用、系统对话框、文件管理器。
- 读取可访问性树——将每个按钮、文本字段、菜单项和标签公开为结构化、可引用寻址的元素。
- 确定性交互——通过元素引用而非像素坐标进行点击、输入、选择、切换、滚动、展开/折叠等操作。
- 回退到视觉识别——当应用程序不公开可访问性数据时,Simulang 使用像素级视觉定位来查找屏幕上的元素。
这意味着一个脚本可以打开 Chrome,填写表单,切换到 Excel,将结果粘贴到电子表格中,然后打开 Slack 并发送消息——所有这些都无需在三种不同的自动化工具之间切换。
工作原理:两种屏幕识别方式

引用 a16z 普通合伙人的话
可访问性树(快速且精确):操作系统会公开所有 UI 元素(按钮、文本字段、菜单、标签等)的结构化树,其中包含语义角色和名称。Simulang 读取此树,为每个元素分配一个引用 ID,并允许脚本通过引用进行交互。响应时间:毫秒级。准确性:确定性。
视觉定位(不透明 UI 的回退方案):某些应用程序——例如游戏、自定义渲染画布、可访问性差的 Electron 应用——不提供有用的树结构。对于这些应用,Simulang 会截取屏幕截图,并使用视觉模型通过描述来定位目标元素。响应时间:1-2 秒。准确性:高但具有概率性。
大多数实际自动化场景中,95% 的交互使用可访问性树,其余 5% 则回退到视觉识别。脚本作者无需做出决定——Simulang 会处理路由。
Simulang + 编码代理
Simulang 不仅限于独立脚本。它还可以作为需要与 GUI 交互的 AI 编码代理的执行层。
Anthropic 基于 CLI 的编码代理 Claude Code 是一个天作之合。Claude Code 编写和编辑代码、运行测试并创建拉取请求——但它无法打开浏览器来验证其构建的内容、点击结账流程或直观地确认 UI 更改是否正确渲染。Simulang 填补了这一空白。
通过 Simulang + Claude Code 集成,您将获得一个完整的代码到验证循环:Claude Code 编写功能,Simulang 打开浏览器、测试实际用户体验、捕获结果截图并报告——所有这些都在同一会话中完成。编码代理处理终端,Simulang 处理屏幕。
设置只需一次配置更改。
工作原理:两种屏幕查看方式

工作流自动化:“每天早上,打开 Gmail,查找未读发票,提取金额,将它们粘贴到 Google 表格中,并向 #accounting 发送 Slack 摘要。”
质量保证与测试:“打开我们的桌面应用程序,导航到设置,更改每个偏好设置,验证 UI 更新是否正确,并截取任何故障的屏幕截图。”
数据收集:“打开领英,搜索‘旧金山 AI 工程师’,收集前 50 个个人资料,并将其导出为 CSV 文件。”
IT 运维:“打开系统偏好设置,验证 FileVault 已启用,检查防火墙是否开启,并将结果记录到我们的合规性仪表板。”
跨平台电商监控: “在三个浏览器标签页中打开 Shopee、Lazada 和 Amazon,收集 20 个 SKU 的竞争对手定价和每日销售数据,将结果粘贴到 Excel 中的跟踪电子表格中,并在 Slack 中标记任何价格下跌。”
社交媒体交叉发布: “取一个完成的视频文件,打开 TikTok 并用第一个标题上传,切换到 Instagram Reels 并用第二个标题上传,打开 LinkedIn 并用第三个版本发布,然后将所有三个 URL 记录到 Google 表格内容日历中。”
多文件桌面整合:“打开 Finder,导航到月度报告文件夹,逐一打开十二个 Excel 文件,从每个文件中复制摘要行,将所有十二个摘要行粘贴到一个主电子表格中,并将整合后的文件保存到 Google Drive。”
这些操作都涉及多个应用程序和多个用户界面。Simulang 可以在一个脚本中处理它们。
认可
Simulang 背后的研究已获得学术界和工程界的认可:
ICLR 2025 最佳论文—— 顶尖机器学习会议
OSWorld 基准测试排名第一 —— 桌面自动化代理的标准评估
Product Hunt 热门发布 —— 开发者社区投票选出