SimuLangのご紹介:デスクトップ全体のためのPlaywright
アン・リー著 • カリフォルニア州パロアルト • 2026年4月23日

Simulangとは
Simulangは、ブラウザ、ネイティブアプリ、OSレベルのワークフローを自動化するためのスクリプト言語で、AIエージェントによって記述されるように設計されています。Simulangをオープンソース化しました。今すぐ単一のコマンドでインストールできます。
開発の背景
最近、コンピューターの使用時間が1日約2時間に大幅に短縮されたことに気付きました。一年前、私は簡単に8歳になっていました。違いは、コンピューター使用エージェント (CUA) がだんだん良くなってきているという点です。業界がついに人間のように見て行動できるエージェントが作られるようになったからです。
Simulangは、それらすべてを制御する1つの言語です。
Simulangを統合するもの:一度書けば、永遠に再生
上記の機能は、他のすべてを可能にする単一のアーキテクチャ上の決定、すなわち「決定論的なリプレイ」を共有しています。
これには、製品を特徴づける2つの結果があります。
速度。 各アクションは50ミリ秒未満で完了します。これは、ローカルAPIにクエリを実行し、クリックを実行するのにかかる時間です。画像キャプチャ、アップロード、モデル推論は不要です。20ステップのワークフローは1秒未満で完了します。スクリーンショットベースのエージェントは、同じワークフローでアクションごとに3~5秒かかり、大規模な場合、60~100倍遅くなります。
コスト。 Simulangスクリプトは、再生時にトークンを消費しません。スクリプトが最初に作成されたとき(またはSaiが自然言語から生成したとき)にLLMの推論に対して料金を支払います。その後、すべての実行は無料です。API呼び出しも、クラウド処理も、実行ごとの料金も発生しません。毎日何百もの自動化ワークフローを実行するチームにとって、これは実現可能か法外に高価かの違いを意味します。これらは漸進的な改善ではありません。これらは、ピクセルではなくセマンティック要素、クラウド推論ではなくローカル実行、確率的な推測ではなく決定論的な参照という、適切な抽象化を選択することから生まれる構造的な利点です。
Simulangの機能
あなたはこう尋ねるかもしれません:a single library and drive the operating system through its accessibility APIs -- the same structured interface that screen readers use.
Simulangスクリプトは次のことができます。
- あらゆるアプリケーションを開く — ブラウザ、ネイティブデスクトップアプリ、システムダイアログ、ファイルマネージャー。
- アクセシビリティツリーを読み取る — すべてのボタン、テキストフィールド、メニュー項目、ラベルが構造化された参照可能な要素として公開されます。
- 決定論的に対話する — ピクセル座標ではなく要素参照によって、クリック、入力、選択、切り替え、スクロール、展開/折りたたみを行います。
- ビジョンにフォールバックする — アプリケーションがアクセシビリティデータを公開しない場合、Simulangはピクセルレベルのビジョンによるグラウンディングを使用して画面上の要素を特定します。
これは、1つのスクリプトでChromeを開き、フォームに入力し、Excelに切り替えて結果をスプレッドシートに貼り付け、その後Slackを開いてメッセージを送信できることを意味します。しかも、3つの異なる自動化ツールを切り替える必要はありません。
仕組み:画面を見る2つの方法

a16zゼネラルパートナーの見積もりはこちら
アクセシビリティツリー(高速かつ正確):OSは、ボタン、テキストフィールド、メニュー、ラベルなど、すべてのUI要素の構造化されたツリーを、セマンティックな役割と名前とともに公開しています。Simulangはこのツリーを読み取り、各要素に参照IDを割り当て、スクリプトが参照によって対話できるようにします。応答時間:ミリ秒。精度:決定的です。
ビジョンによるグラウンディング(不透明なUIのフォールバック):一部のアプリケーション(ゲーム、カスタムレンダリングされたキャンバス、アクセシビリティの低いElectronアプリなど)は、有用なツリーを公開していません。これらの場合、Simulangはスクリーンショットを撮り、ビジョンモデルを使用して説明に基づいてターゲット要素を特定します。応答時間:1~2秒。精度:高いが確率的です。
ほとんどの実際の自動化では、95%のインタラクションでアクセシビリティツリーを使用し、残りの5%ではビジョンにフォールバックします。スクリプト作成者が決定する必要はなく、Simulangがルーティングを処理します。
Simulang + コーディングエージェント
Simulangはスタンドアロンのスクリプトに限定されません。GUIと対話する必要があるAIコーディングエージェントの実行レイヤーとして機能します。
AnthropicのCLIベースのコーディングエージェントであるClaude Codeは、Simulangと相性の良い組み合わせです。Claude Codeはコードの記述と編集、テストの実行、プルリクエストの作成を行いますが、構築したものを検証するためにブラウザを開いたり、チェックアウトフローをクリックして進めたり、UIの変更が正しくレンダリングされたことを視覚的に確認したりすることはできません。Simulangがそのギャップを埋めます。
SimulangとClaude Codeの統合により、コード作成から検証までの一貫したループが実現します。Claude Codeが機能を記述し、Simulangがブラウザを開いて実際のユーザー体験をテストし、結果のスクリーンショットをキャプチャして報告します。これらすべてを同じセッション内で実行します。コーディングエージェントはターミナルを、Simulangは画面を扱います。
セットアップは1回の設定変更で完了します。
仕組み:画面表示の2つの方法

ワークフロー自動化: 「毎朝、Gmailを開き、未読の請求書を見つけ、金額を抽出し、Google Sheetに貼り付け、Slackの#accountingチャンネルに要約を送信する。」
QAとテスト: 「デスクトップアプリを開き、設定に移動し、各設定を変更し、UIが正しく更新されることを確認し、失敗があればスクリーンショットを撮る。」
データ収集: 「LinkedInを開き、『サンフランシスコのAIエンジニア』を検索し、最初の50件のプロフィールを収集し、CSVにエクスポートする。」
IT運用: 「システム環境設定を開き、FileVaultが有効になっていることを確認し、ファイアウォールがオンになっていることを確認し、結果をコンプライアンスダッシュボードに記録する。」
複数プラットフォームEC監視: 「Shopee、Lazada、Amazonを3つのブラウザタブで開き、20のSKUについて競合他社の価格と日次売上データを収集し、結果をExcelの追跡スプレッドシートに貼り付け、価格下落があればSlackで通知する。」
SNSクロスポスト: 「完成した動画ファイルを使い、TikTokを開いて最初のキャプションでアップロードし、Instagram Reelsに切り替えて2番目のキャプションでアップロードし、LinkedInを開いて3番目のバージョンで投稿し、その後3つのURLすべてをGoogle Sheetのコンテンツカレンダーに記録する。」
デスクトップ上の複数ファイル統合: 「Finderを開き、月次レポートフォルダに移動し、12個のExcelファイルを1つずつ開き、それぞれの要約行をコピーし、12個すべてをマスターのスプレッドシートに貼り付け、統合されたファイルをGoogle Driveに保存する。」
これらはそれぞれ複数のアプリケーションやUI画面を操作します。Simulangはそれらを単一のスクリプトで処理します。
評価
Simulangの背後にある研究は、学術界とエンジニアリングコミュニティから高く評価されています。
ICLR 2025でベストペーパー賞 -- 主要な機械学習カンファレンス
OSWorldベンチマークで1位 -- デスクトップ自動化エージェントの標準評価
Product Huntでトップローンチ -- 開発者コミュニティからの投票で選出
今すぐ始める
Simulangをインストールして、最初のスクリプトを書いてみましょう。
詳細なドキュメント:docs.simular.ai/Simulang
Simulangはオープンソースです。ライブラリ、CLI、ドキュメントはすべてGitHubで公開されています。
自律型コンピュータを構築しても、人間が置き換えられるわけではありません。それは協力を意味する。
コンピューターから手を離してください。Simular を今すぐ無料でダウンロードしてください。