])

Codex vs. Simulang: どちらのAIエージェントが実際にコンピューターをより優れた方法で制御するのか

あなたのコーディングエージェントはコードを書けます。しかし、経費報告書を提出したり、デスクトップアプリを開いたり、ログインが必要なフォームに入力したりできるでしょうか?

それが、AIツールにおける最新のカテゴリである「コンピュータ利用エージェント」を推進する問いです。OpenAIのCodexには、エージェントが画面を見て、スクリーンショットとマウスクリックを通じてアプリケーションと対話できるComputer Use機能が搭載されました。SimularのSimulangは根本的に異なるアプローチを取ります。オペレーティングシステムのアクセシビリティツリーを読み取り、LLMを介さずに再現可能な決定論的スクリプトを作成するのです。

私は両方を同じデスクトップ自動化タスクのセットでテストしました。その結果と、どちらを選ぶべきかをご紹介します。

Codexとは?

CodexはOpenAIのAIエージェント プラットフォームです。2021年にコード生成モデルとして最初にリリースされましたが、Codexはコードを書き、ターミナルコマンドを実行し、ウェブを閲覧できる多機能エージェントへと進化しました。そして、最新のアップデートでは、Computer Use機能を通じてデスクトップアプリケーションを制御できます。

Computer Use機能は、ユーザーの画面のスクリーンショットを撮り、それらをビジョンモデルに送信し、マウス/キーボードアクションを返すことで動作します。エージェントはあなたが見るもの、つまりピクセルのグリッドを見て、どこをクリックし、何を入力し、いつスクロールするかを決定します。

Codexはデフォルトでクラウドサンドボックス内で実行されます。Computer Use機能は、プラグインアーキテクチャを通じてこれをローカルデスクトップに拡張します。

Simulangとは?

Simulang は、ブラウザ、ネイティブアプリ、OSレベルのワークフローを自動化するためのスクリプト言語です。オープンソースであり、でインストールでき、

‍npm install -g @simular-ai/simulang

オペレーティングシステムのアクセシビリティAPIを通じてアプリケーションと対話するTypeScriptスクリプトを生成します。Simulangは Simularによって開発・サポートされています。

スクリーンショットを見る代わりに、 Simulangはアクセシビリティツリーを読み取ります — VoiceOverやJAWSのようなスクリーンリーダーが使用するのと同じ構造化されたインターフェースです。すべてのボタン、テキストフィールド、メニュー項目、ラベルは、名前付きの参照可能な要素として公開されます。スクリプトはピクセル座標ではなく、参照によって対話します。

Simulangは設計されています コーディングエージェントの出力形式となります。Claude Code、Cursor、またはLLMを搭載したあらゆるコーディングツールは、Simulangスクリプトを一度書けば、そのスクリプトは決定論的に再生され、実行時にLLMは不要です。

How we evaluated

Simulangは設計図を読み取り、Codexは写真を見る

これが中核となるアーキテクチャの違いであり、下流のすべてに影響を及ぼします。

Codexのコンピューター操作 スクリーンショット(通常1920x1080ピクセル)を撮り、それをビジョンモデルに送って「送信ボタンはどこですか?」と尋ねます。モデルは座標を返し、Codexはその座標にマウスを移動してクリックします。

このアプローチには3つの問題があります。

  1. 解像度への依存ウィンドウのサイズが変更されると座標が変わり、OSのスケーリングが変更されると座標が変わります。ダイアログボックスが表示されてレイアウトがずれると、座標は間違ったものになります。
  2. 曖昧さ見た目は同じでも目的が異なる2つのボタン(例:ネストされたダイアログ内の2つの「保存」ボタン)は、ピクセルだけでは区別できません。
  3. 速度各アクションには、フルスクリーンショット、ビジョンモデルの推論(500ミリ秒~2秒)、および応答が必要です。10ステップのワークフローでは、純粋な推論時間だけで10~20秒かかります。

Simulang アクセシビリティツリーを読み取り、各要素に安定した参照IDを割り当てます。スクリプトは次のように指示します。 tree.activate("ref_42") 「ピクセル(847, 312)をクリック」ではありません。ウィンドウが移動しても、参照は有効です。OSのスケーリングが変更されても、参照は有効です。ダイアログが表示されても、Simulangは新しいツリーを読み取り、その意味的識別子によって要素を見つけます。

アクションごとの応答時間:ミリ秒。10ステップのワークフローは1秒未満で完了します。

SimulangスクリプトはLLMなしで実行されますが、Codexは各アクションごとにLLMを必要とします。

この違いが、コストと信頼性の両方を左右します。

Codexのコンピューター操作 あらゆる操作にLLMコールが必要です。メニューを開く、ボタンをクリックする、フィールドに入力する、そのたびにLLMコールが発生します。各コールはトークンを消費し、レイテンシーを増加させ、誤解釈の可能性を生じさせます。同じワークフローを100回実行すると、100 x N回(Nはステップ数)のLLMコールの費用がかかります。

Simulang LLMを使用するのは、スクリプト作成時の一度だけです。コーディングエージェント(Claude Code、Cursorなど)がSimulangスクリプトを作成し、それ以降、スクリプトは決定論的に実行されます。100回実行しても、追加のLLMコール費用はかかりません。

コストの差は無視できません。週5日稼働する20ステップの日常ワークフローの場合:

  • Codex:20ステップ x 5日 x 4週 = 月間400回のLLMコール。1コールあたり約0.01〜0.03ドル(ビジョンモデルの料金)で、単一の自動化で月額4〜12ドルになります。
  • Simulang:スクリプト作成のためのLLMコール1回 + 実行費用0ドル。合計:0.03〜0.10ドル(1回限り)。

Simulangはブラウザとネイティブアプリの両方を制御します。一方、Codex Computer Useはあらゆるもののスクリーンショットを介して動作します。

どちらのツールも、画面に表示されるあらゆるアプリケーションと対話できますが、そのメカニズムは異なります。

Codex 設計上、アプリケーションに依存しません。ピクセルとして表示されていれば、Codexはそれと対話しようとします。これは、API、アクセシビリティサポート、自動化フックがないアプリケーションにとって非常に有用です。レガシーなエンタープライズソフトウェア、カスタムレンダリングされたキャンバス、リモートデスクトップセッションなど、すべてが対象となります。

Simulang ブラウザをネイティブに処理し(PlaywrightスタイルのアクセシビリティAPIを介して)、アクセシビリティデータを公開するあらゆるネイティブアプリケーション(事実上すべての標準的なmacOS、Windows、Linuxアプリケーションを含む)に拡張されます。アクセシビリティデータを公開しない稀なアプリケーションの場合、Simulangはビジョン・グラウンディングにフォールバックし、スクリーンショットを撮り、ビジョンモデルを使用してターゲット要素を特定します。

実用的な違いは次のとおりです。Simulangは、95%の操作で高速で決定論的なパス(アクセシビリティツリー)を使用し、残りの5%で低速で確率論的なパス(ビジョン)を使用します。一方、Codexは、100%の操作で低速で確率論的なパスを使用します。

Codexはクラウドサンドボックスで実行されますが、Simulangはあなたのマシンで実行されます。

Codex デフォルトではクラウドVMで動作します。コード、ファイル、認証情報はOpenAIのインフラストラクチャにアップロードされます。Computer UseプラグインはCodexをローカルデスクトップに拡張しますが、コアアーキテクチャはクラウドファーストです。

Simulang お使いのローカルマシン上で完全に動作します。スクリプトは、ブラウザセッション、ログイン中のアプリケーション、ファイルシステムなど、実際のデスクトップに対して実行されます。何もアップロードされません。スクリプトが明示的にデータをどこかに送信しない限り、マシンからデータが離れることはありません。

コンプライアンス要件(SOC 2、HIPAA、金融規制など)を持つ企業にとって、ローカル実行はしばしば譲れない条件となります。認証セッション(メール、銀行、社内ツールなど)を伴うワークフローを自動化したい個人開発者にとって、ローカル実行は認証情報の共有が不要であることを意味します。

Comparison Summary

Dimension Codex Computer Use Simulang
Best for Non-technical users wanting natural language desktop control Developers building repeatable, production-grade automations
How it works Screenshots + vision model per action Accessibility tree + deterministic scripts
Perception Pixel-level (screenshots) Semantic (accessibility tree) + vision fallback
Speed per action 2-4 seconds (LLM inference) ~50 milliseconds (local tree read)
LLM at runtime Required for every action Not required (scripts replay deterministically)
Scope Anything visible as pixels Browsers + native apps + system dialogs
Execution Cloud sandbox (with local plugin option) Local machine only
Data privacy Screenshots sent to OpenAI servers Everything runs locally, nothing uploaded
Cost per run $0.01-0.03 per action (token costs) $0 (after initial script authoring)
Pricing ChatGPT Pro $200/month or API pay-per-use Free and open source
Open source Partially (Codex CLI is open source) Yes (fully open source)

Codex Computer Useが本当に優れている点

公平性が重要です。ここにCodexの真の利点があります。

  • 非技術系ユーザー向けのセットアップ不要: Codexのスクリーンショットアプローチは、アクセシビリティツリー、参照、スクリプトの理解を必要としません。自然言語でやりたいことを記述すれば、エージェントがそれを試みます。Simulangはスクリプトの記述(または生成)が必要です。
  • リモートデスクトップとVMで動作: Codexは、画面にピクセルとして表示されるリモートデスクトップセッションを制御できます。SimulangはアクセシビリティAPIへのローカルOSレベルのアクセスを必要としますが、リモートデスクトッププロトコルは通常これを公開しません。
  • 統合されたコーディング環境: Codexは、ターミナルアクセス、ファイル編集、コード実行機能を備えたフル機能のコーディングエージェントです。Simulangはデスクトップ自動化フレームワークであり、アプリケーションコードを記述するものではありません。
  • アプリケーションに依存しない: ピクセルとしてレンダリングされるものであれば、Codexはそれと対話しようと試みることができます。レガシーなエンタープライズソフトウェア、カスタムレンダリングされたキャンバス、アクセシビリティサポートがまったくない独自のアプリなども含まれます。

Simulangが本当に優れている点

  • 速度: Simulangの各アクションは約50ミリ秒かかります(アクセシビリティツリーの読み取り)。Codexの各アクションは2~4秒かかります(スクリーンショット+ビジョンモデル推論)。Simulangでは15ステップのワークフローが1秒未満で完了しますが、Codexでは同じワークフローに30~60秒かかります。
  • 信頼性: Simulangはピクセル座標ではなく、意味参照によって操作します。ウィンドウのサイズ変更、ダイアログの表示、OSのスケーリング変更があっても、参照は有効です。Codexの座標は、レイアウトが少しでも変更されると機能しなくなります。
  • 大規模運用時のコスト: Simulangのスクリプトは、初回作成後は実行ごとに0ドルです。Codexは、実行ごとにすべてのアクションでLLM呼び出しが必要です。20ステップの日常ワークフローの場合、Codexでは月額4〜12ドルかかりますが、Simulangでは一度0.05ドルです。
  • プライバシーとコンプライアンス: Simulangは完全にローカルマシン上で動作します。スクリーンショットがコンピュータから外部に出ることはなく、認証情報が共有されることもありません。Codexは、ビジョンモデル処理のためにスクリーンショットをOpenAIのクラウドに送信します。
  • クロスプラットフォーム: Simulangは現在、macOS、Windows、Linuxをサポートしています。CodexのComputer Useのサポートは、プラットフォームとプラグインの利用可能性によって異なります。
  • ネイティブアプリの制御: Simulangは、ブラウザとネイティブデスクトップアプリ(Excel、Slack、Finder、メールクライアント、システムダイアログ)を同じアクセシビリティAPIを通じて操作します。Codexはすべてをピクセルとして扱います。機能はしますが、クリックしている対象の意味を理解していません。
  • 決定論的なリプレイ: 今日作成されたSimulangスクリプトは、LLMの関与なしに明日、来週、来月も同じように実行されます。Codexは実行ごとに画面を再解釈する必要があり、各実行でばらつきが生じます。

料金

Codex

Simulang

  • オープンソースで、インストールと利用は無料です
  • アクションごとの費用は不要 — スクリプトはLLM呼び出しなしでローカル実行されます
  • LLMの費用はスクリプト作成時のみ発生します(ご自身のClaude Code、Cursor、またはCopilotサブスクリプションを使用する場合)

Codex vs. Simulang: どちらを選ぶべきか?

Codexを選ぶべき場合:

  • デスクトップも操作できる汎用AIコーディングエージェントが必要な場合
  • スクリプトよりも自然言語での指示を好む場合
  • リモートデスクトップセッションやVMを自動化する必要がある場合
  • すでにOpenAI/ChatGPTエコシステムを利用している場合

Simulangを選ぶべき場合:

  • 継続的なLLM費用なしで実行される、決定論的で再現性のあるデスクトップ自動化が必要な場合
  • ブラウザとネイティブデスクトップアプリの両方でワークフローを自動化したい場合
  • スピードを重視する場合 — アクションごとに数秒かかるのではなく、ミリ秒単位の応答時間を求める場合
  • コンプライアンスまたは認証情報のセキュリティのためにローカル実行が必要な場合
  • コーディングエージェント(Claude Code、Cursor)に、引き渡し可能な自動化スクリプトを作成させたい場合

本番環境の自動化ワークフローを構築するほとんどの開発者にとって、Simulangはより実用的な選択肢です。スクリプトを一度書けば、永続的に実行でき、実行ごとに費用はかかりません。画面上のAIに「これを実行して」と指示するようなアドホックなデスクトップタスクでは、Codex Computer Useの方が迅速に開始できます。

これら2つのツールは相互に排他的ではありません。Codex(またはClaude Code、Cursor)を使用してSimulangスクリプトを作成することで、作成時のLLMインテリジェンスと実行時の決定論的実行という、両方の利点を享受できます。

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai

FAQS

})