])

Claude Cowork vs. SimuLang: どちらのデスクトップAIエージェントを使うべきか?

Anthropicは、Claudeがスクリーンショットとマウスクリックを通じてMacまたはWindowsのデスクトップを操作できる機能「Claude Cowork」をリリースしました。ユーザーが見ている間に、アプリを開いたり、フォームに入力したり、メニューを操作したりできます。初めて見ると、まるで魔法のように感じられるでしょう。

しかし、2つのアイコンが似ていたために間違ったボタンをクリックするのを見たり、ビジョンモデルが次のスクリーンショットを処理する間、各アクションの間に4秒待たされたり、スクリーンショットが解釈のためにAnthropicのサーバーに送信されるとき、銀行の認証情報がどうなるのか疑問に思ったりすることもあるでしょう。

Simulangはこれら3つの問題をすべて解決します。スクリーンショットの代わりにアクセシビリティツリーを読み取り、数秒ではなくミリ秒単位で実行され、すべてローカルマシン上で動作します。しかし、Coworkにも利点があります。特に、画面を指差して「これをやって」と言いたい非技術系のユーザーにとっては。

私は両方を同じデスクトップワークフローでテストしました。正直な比較を以下に示します。

Claude Coworkとは?

Claude Cowork は、Anthropicが提供するコンピューター操作機能で、Claudeデスクトップアプリで利用できます。Claudeにスクリーンショットを通じて画面を見たり、マウスを動かしたり、要素をクリックしたり、テキストを入力したりする能力を与え、事実上、人間と同じようにデスクトップを操作します。

このインタラクションループは次のように機能します。Coworkはスクリーンショットを撮り、それをClaudeのビジョンモデルに送信し、ピクセルからUI要素を識別し、実行するアクションを決定し、それを実行し、検証のために別のスクリーンショットを撮り、これを繰り返します。すべてのアクションがこの「スクリーンショット取得→推論→実行」のサイクルを経ます。

Anthropicの非技術系チームが、チャットインターフェースを迂回してClaude Codeをナレッジワークタスクに使い始めたときに、Coworkは誕生しました。Anthropicは、その同じコンピューター操作機能の簡素化されたバージョンとしてCoworkを構築し、研究者、アナリスト、運用チーム、そして日々ドキュメントやデータを扱うすべての人々を対象としています。

料金: Claude Pro(月額20ドル)、Team(1シートあたり月額30ドル)、およびEnterpriseプラン。各アクションは、スクリーンショット処理パイプラインを通じてAPIトークンを消費します。

Simulangとは?

Simulang は、オペレーティングシステムのアクセシビリティツリー(スクリーンリーダーが使用するのと同じ構造化データ)を読み取ることでデスクトップアプリケーションを自動化するオープンソースのJavaScriptライブラリです。ピクセルを見る代わりに、 Simulangは各UI要素の役割を理解します (ボタン、テキストフィールド、メニュー項目)、名前、状態、および正確な位置を。

JavaScriptで自動化スクリプトを作成します。これらのスクリプトは、座標を推測するのではなく、正確な要素参照を通じて、ブラウザ、スプレッドシート、メールクライアント、ターミナルなど、あらゆるデスクトップアプリケーションと対話します。一度作成されたスクリプトは、APIトークンを消費することなく即座に再生されます。

Simulangは Sai、それを実行レイヤーとして利用するAIエージェントです。Saiがワークフローを自動化する際には、その基盤としてSimulangのアクセシビリティツリーが使われます。

料金: Simulangは無料でオープンソースです。Sai(Simulang上に構築されたAIエージェント)は、無料プランと月額20ドルからの有料プランを提供しています。

How we evaluated

デスクトップの制御方法

Claude Cowork: スクリーンショットベースのビジョン

Coworkは画面全体を画像としてキャプチャし、Claudeのコンテキストウィンドウに収まるように縮小して、Anthropicのサーバーに送信します。ビジョンモデルは、スクリーンショットを解釈し、ボタン、メニュー、テキストフィールド、その他の要素をその見た目に基づいて識別します。その後、クリックすべきマウス座標を返します。

このアプローチには、本質的に精度の上限があります。小さなUI要素、コントラストの低いテキスト、似たようなアイコンは、ビジョンモデルを混乱させる可能性があります。20個の項目があるドロップダウンメニューは、各行を読み取れる人間とは異なり、ビジョンモデルには違って見えます。Coworkが誤クリックした場合、別のスクリーンショットを撮り、エラーを認識して回復を試みます。これにより、時間とトークン消費が増加します。

Simulang: アクセシビリティツリーの解析

Simulangは、オペレーティングシステムのアクセシビリティAPI(WindowsではUI Automation、macOSではAXTree)にクエリを実行します。これにより、画面上のすべてのUI要素の構造化されたツリーが返されます。これには、技術的には画面外にある要素や、他のウィンドウの背後に隠れている要素も含まれます。各要素には、その役割、名前、値、状態が付随しており、解釈は不要です。

ボタンをクリックするということは、画面上のどこにあるかを推測するのではなく、そのアクセシビリティ識別子によって参照することを意味します。曖昧さはありません。「Submit」という名前のボタンは、画面解像度、フォントサイズ、ダークモード、ウィンドウの位置に関わらず、常に「Submit」です。

速度: ミリ秒 vs. 秒

Claude Coworkのすべてのアクションは、このパイプラインに従います。

  1. スクリーンショットのキャプチャ(約500ミリ秒)
  2. 縮小とエンコード(約100ミリ秒)
  3. Anthropic APIへのアップロード(約500ミリ秒)
  4. ビジョンモデルの推論(約2~3秒)
  5. 座標の返却(約200ミリ秒)
  6. マウス/キーボード操作を実行(約100ミリ秒)

1アクションあたりの合計: 3~5秒。

Simulangのパイプライン:

  1. 参照によってアクセシビリティツリー要素をクエリ(約5ミリ秒)
  2. アクションを実行(約10ミリ秒)

1アクションあたりの合計: 50ミリ秒未満。

10ステップのワークフローの場合、Coworkでは30~50秒かかりますが、Simulangは1秒未満で完了します。20ステップのフォーム入力タスクでは、この文を読み終える前にSimulangが完了する一方で、Coworkが2分近く作業するのを見ることになります。

これはわずかな違いではありません。各ステップで累積する100倍の速度差があるのです。

精度:構造化データ vs. ピクセル解釈

Claude Coworkの精度は、ビジョンモデルが各スクリーンショットをどれだけ正確に解釈するかに完全に依存します。Anthropicは、オリジナルのComputer Useプレビュー以来これを大幅に改善しましたが、特定のシナリオでは常に問題が発生します。

  • 小さなテキストやアイコン: Coworkは、スクリーンショットをモデルに送信する前に縮小します。そのため、小さな文字、小さなツールバーアイコン、密度の高いスプレッドシートは、縮小によって詳細が失われます。
  • 似たような要素: ほぼ同じアイコンだが機能が異なる2つのボタン。拡張子のみが異なるファイル名のリスト。Coworkは時々間違った方を選択します。
  • 動的なコンテンツ: ドロップダウンメニュー、オートコンプリートの候補、ローディングスピナーは、スクリーンショットのキャプチャとアクションの実行の間に画面の状態を変化させます。
  • 高密度UI: Excel、VS Code、Figmaのようなアプリケーションでは、多数の小さなコントロールが狭いスペースに詰め込まれています。これらのインターフェースにおけるピクセルレベルの座標指定によるターゲティングは信頼性に欠けます。

Simulangにはこれらの問題はありません。オペレーティングシステムから要素のメタデータを直接読み取ります。画面上でどのようにレンダリングされるかに関わらず、ボタンは名前と位置を持つボタンとして認識されます。アクセシビリティツリーに存在するあらゆる要素に対して、精度は実質的に100%です。

注意点として、一部のアプリケーションではアクセシビリティの実装が不十分です。ゲーム、カスタムレンダリングされたキャンバス、一部のElectronアプリでは、アクセシビリティAPIを通じてすべての要素が公開されない場合があります。これらのケースでは、Simulangはフォールバックとしてビジョンベースのグラウンディングを提供しますが、主要なインタラクションパスは常に構造化されたツリーです。

コスト:無料のリプレイ vs. 実行ごとの支払い

Claude Coworkは、実行ごとにトークンを消費します。各スクリーンショットは約1,500~3,000トークン(解像度による)であり、これに各決定のための推論トークンが加算されます。20ステップのワークフローでは、1回の実行で40,000~80,000トークンを消費する可能性があります。

そのワークフローを1日10回、1ヶ月に20日間実行すると、毎月数百万トークンを消費することになります。Proプランであっても、その使用量は無視できないでしょう。

Simulangスクリプトのリプレイには費用がかかりません。一度自動化を記述すれば、追加費用なしで永続的に実行できます。API呼び出しも、トークン消費も、使用制限もありません。これにより、Simulangは反復的なワークフローにおいて劇的に経済的になります。

Scenario Claude Cowork (monthly) Simulang (monthly)
20-step workflow, once daily ~1.2M tokens ($6-12 on API) $0
20-step workflow, 10x daily ~12M tokens ($60-120) $0
50-step workflow, 5x daily ~15M tokens ($75-150) $0
Team of 10, mixed workflows $300+/month + $30/seat $0 (open source)
Execution time (20 steps) 60-100 seconds Under 1 second

プライバシー:ローカル実行 vs. クラウドスクリーンショット

ここが、セキュリティを重視するチームにとって決定的な違いとなります。

Claude Coworkは、デスクトップのフルスクリーンショットを処理のためにAnthropicのサーバーに送信します。キャプチャ時に画面に表示されているすべてのもの(パスワード、財務データ、機密文書、個人メッセージなど)が、サードパーティのAPIに送信されます。Anthropicのデータ保持ポリシーが適用されます。

Simulangは完全にローカルマシン上で動作します。アクセシビリティツリーはローカルで照会され、アクションもローカルで実行されます。データがコンピュータから出ることはありません。Simulangを推論レイヤー用のローカルLLMと組み合わせれば、パイプライン全体がインターネットからエアギャップされます。

コンプライアンス要件のある業界(医療(HIPAA)、金融(SOX)、法務(弁護士・依頼人秘匿特権)など)にとって、この違いは単なる好みではなく、必須要件です。

Comparison Summary

Dimension Claude Cowork Simulang
Developer Anthropic Simular
How it sees the screen Screenshots (pixel interpretation) Accessibility tree (semantic data)
Speed per action 3-5 seconds Under 50 milliseconds
Accuracy Probabilistic (vision model) Deterministic (element references)
Replay cost Tokens consumed every run $0 after initial script
Data privacy Screenshots sent to Anthropic cloud 100% local execution
Coding required No (natural language) Yes (JavaScript)
Visual understanding Yes (charts, images, layouts) No (structural data only)
Platform macOS, Windows (Claude app) Windows, macOS, Linux
Best for Ad-hoc tasks, visual analysis Repeatable automations at scale

Claude Coworkがより良い選択肢となる場合

Coworkには、Simulangにはない真の利点があります。

コード不要のインタラクション。 プレーンな英語でやりたいことを記述するだけで、Coworkがその方法を解明します。スクリプト作成も、セットアップも、プロンプト入力以外の学習曲線もありません。50個のPDFをトピックごとにフォルダに整理する必要がある研究者にとって、Coworkは一行のコードも書かずにそれを処理します。

視覚的理解。 Coworkは、アクセシビリティツリーでは記述されないチャート、グラフ、画像、視覚的なレイアウトを解釈できます。「このダッシュボードを見て傾向を要約してほしい」とClaudeに依頼する場合、Coworkはそれが可能です。視覚的なコンテンツがアクセシビリティツリーにないため、Simulangにはできません。

対話型イテレーション。 Coworkの動作を見守り、中断し、修正指示を与え、自然言語でアプローチを洗練させることができます。そのやり取りは、画面を見ている同僚とペアで作業しているような感覚です。Simulangでは、動作を変更するためにコードを修正する必要があります。

幅広いアプリケーションに対応。 Coworkはスクリーンショットに基づいて動作するため、カスタムの社内ツール、レガシーソフトウェア、非標準のUIフレームワークを持つウェブアプリケーションなど、ピクセルを描画するあらゆるアプリケーションと連携できます。アクセシビリティAPIの実装品質に依存することはありません。

Simulangがより良い選択肢となる場合

Simulangには、Coworkでは再現できない構造的な利点があります。

プロダクションレベルの信頼性。 1,000回実行しても一度も誤クリックしない自動化が必要な場合、Simulangの決定論的な要素ターゲティングが唯一の選択肢です。Coworkの確率論的なビジョンモデルは、大規模な運用ではいずれ間違いを犯します。

速度が重要なワークフロー。 実行時間が重要となるあらゆるワークフロー(CI/CDパイプライン、リアルタイムデータ入力、高頻度モニタリングなど)には、Simulangのミリ秒単位の実行が必要です。Coworkはアクションごとに数秒の遅延があるため、時間制約のある自動化には不向きです。

コスト重視の運用。 毎日何百もの自動化ワークフローを実行するチームにとって、実行ごとの課金では費用を賄えません。Simulangのゼロコストのリプレイ機能は、大規模な自動化を経済的に実現可能にします。

機密性の高い環境。 デスクトップのスクリーンショットをサードパーティのクラウドサービスに送信すべきではないあらゆる状況。政府機関、医療、金融、法務、および厳格なデータレジデンシー要件を持つあらゆる組織が該当します。

プログラムによる統合。 Simulangスクリプトは、CI/CDパイプラインに組み込んだり、他のアプリケーションから呼び出したり、cronジョブでスケジュールしたり、複雑な多段階ワークフローに構成したりできます。CoworkはClaudeデスクトップアプリでの対話型セッションに限定されます。

徹底比較:5つの実際のワークフロー

Workflow Claude Cowork Simulang Verdict
Fill a 15-field web form daily Works but slow (~60s). Occasional misclicks on dropdowns. Sub-second, 100% accurate. Runs unattended via cron. Simulang
Organize 50 PDFs by topic Reads file names, opens some to check. Natural language instructions. Requires scripting file-system logic. Faster execution but more setup. Cowork (ease)
Summarize a dashboard chart Sees the chart, interprets trends, writes summary. Cannot interpret visual chart content from accessibility tree alone. Cowork
Monitor a website price every hour Must run manually each time. Token cost adds up over weeks. Scheduled script runs indefinitely at zero cost. Simulang
Extract data from a legacy ERP with custom UI Screenshots work regardless of UI framework. Handles custom controls. Depends on accessibility API support. Some legacy apps lack it. Cowork

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai

FAQS

})