])

Anthropicは、Claudeがスクリーンショットとマウスクリックを通じてMacまたはWindowsのデスクトップを操作できる機能「Claude Cowork」をリリースしました。ユーザーが見ている間に、アプリを開いたり、フォームに入力したり、メニューを操作したりできます。初めて見ると、まるで魔法のように感じられるでしょう。
しかし、2つのアイコンが似ていたために間違ったボタンをクリックするのを見たり、ビジョンモデルが次のスクリーンショットを処理する間、各アクションの間に4秒待たされたり、スクリーンショットが解釈のためにAnthropicのサーバーに送信されるとき、銀行の認証情報がどうなるのか疑問に思ったりすることもあるでしょう。
Simulangはこれら3つの問題をすべて解決します。スクリーンショットの代わりにアクセシビリティツリーを読み取り、数秒ではなくミリ秒単位で実行され、すべてローカルマシン上で動作します。しかし、Coworkにも利点があります。特に、画面を指差して「これをやって」と言いたい非技術系のユーザーにとっては。
私は両方を同じデスクトップワークフローでテストしました。正直な比較を以下に示します。

Claude Cowork は、Anthropicが提供するコンピューター操作機能で、Claudeデスクトップアプリで利用できます。Claudeにスクリーンショットを通じて画面を見たり、マウスを動かしたり、要素をクリックしたり、テキストを入力したりする能力を与え、事実上、人間と同じようにデスクトップを操作します。
このインタラクションループは次のように機能します。Coworkはスクリーンショットを撮り、それをClaudeのビジョンモデルに送信し、ピクセルからUI要素を識別し、実行するアクションを決定し、それを実行し、検証のために別のスクリーンショットを撮り、これを繰り返します。すべてのアクションがこの「スクリーンショット取得→推論→実行」のサイクルを経ます。
Anthropicの非技術系チームが、チャットインターフェースを迂回してClaude Codeをナレッジワークタスクに使い始めたときに、Coworkは誕生しました。Anthropicは、その同じコンピューター操作機能の簡素化されたバージョンとしてCoworkを構築し、研究者、アナリスト、運用チーム、そして日々ドキュメントやデータを扱うすべての人々を対象としています。
料金: Claude Pro(月額20ドル)、Team(1シートあたり月額30ドル)、およびEnterpriseプラン。各アクションは、スクリーンショット処理パイプラインを通じてAPIトークンを消費します。

Simulang は、オペレーティングシステムのアクセシビリティツリー(スクリーンリーダーが使用するのと同じ構造化データ)を読み取ることでデスクトップアプリケーションを自動化するオープンソースのJavaScriptライブラリです。ピクセルを見る代わりに、 Simulangは各UI要素の役割を理解します (ボタン、テキストフィールド、メニュー項目)、名前、状態、および正確な位置を。
JavaScriptで自動化スクリプトを作成します。これらのスクリプトは、座標を推測するのではなく、正確な要素参照を通じて、ブラウザ、スプレッドシート、メールクライアント、ターミナルなど、あらゆるデスクトップアプリケーションと対話します。一度作成されたスクリプトは、APIトークンを消費することなく即座に再生されます。
Simulangは Sai、それを実行レイヤーとして利用するAIエージェントです。Saiがワークフローを自動化する際には、その基盤としてSimulangのアクセシビリティツリーが使われます。
料金: Simulangは無料でオープンソースです。Sai(Simulang上に構築されたAIエージェント)は、無料プランと月額20ドルからの有料プランを提供しています。
Coworkは画面全体を画像としてキャプチャし、Claudeのコンテキストウィンドウに収まるように縮小して、Anthropicのサーバーに送信します。ビジョンモデルは、スクリーンショットを解釈し、ボタン、メニュー、テキストフィールド、その他の要素をその見た目に基づいて識別します。その後、クリックすべきマウス座標を返します。
このアプローチには、本質的に精度の上限があります。小さなUI要素、コントラストの低いテキスト、似たようなアイコンは、ビジョンモデルを混乱させる可能性があります。20個の項目があるドロップダウンメニューは、各行を読み取れる人間とは異なり、ビジョンモデルには違って見えます。Coworkが誤クリックした場合、別のスクリーンショットを撮り、エラーを認識して回復を試みます。これにより、時間とトークン消費が増加します。

Simulangは、オペレーティングシステムのアクセシビリティAPI(WindowsではUI Automation、macOSではAXTree)にクエリを実行します。これにより、画面上のすべてのUI要素の構造化されたツリーが返されます。これには、技術的には画面外にある要素や、他のウィンドウの背後に隠れている要素も含まれます。各要素には、その役割、名前、値、状態が付随しており、解釈は不要です。
ボタンをクリックするということは、画面上のどこにあるかを推測するのではなく、そのアクセシビリティ識別子によって参照することを意味します。曖昧さはありません。「Submit」という名前のボタンは、画面解像度、フォントサイズ、ダークモード、ウィンドウの位置に関わらず、常に「Submit」です。
Claude Coworkのすべてのアクションは、このパイプラインに従います。
1アクションあたりの合計: 3~5秒。
Simulangのパイプライン:
1アクションあたりの合計: 50ミリ秒未満。
10ステップのワークフローの場合、Coworkでは30~50秒かかりますが、Simulangは1秒未満で完了します。20ステップのフォーム入力タスクでは、この文を読み終える前にSimulangが完了する一方で、Coworkが2分近く作業するのを見ることになります。
これはわずかな違いではありません。各ステップで累積する100倍の速度差があるのです。
Claude Coworkの精度は、ビジョンモデルが各スクリーンショットをどれだけ正確に解釈するかに完全に依存します。Anthropicは、オリジナルのComputer Useプレビュー以来これを大幅に改善しましたが、特定のシナリオでは常に問題が発生します。
Simulangにはこれらの問題はありません。オペレーティングシステムから要素のメタデータを直接読み取ります。画面上でどのようにレンダリングされるかに関わらず、ボタンは名前と位置を持つボタンとして認識されます。アクセシビリティツリーに存在するあらゆる要素に対して、精度は実質的に100%です。
注意点として、一部のアプリケーションではアクセシビリティの実装が不十分です。ゲーム、カスタムレンダリングされたキャンバス、一部のElectronアプリでは、アクセシビリティAPIを通じてすべての要素が公開されない場合があります。これらのケースでは、Simulangはフォールバックとしてビジョンベースのグラウンディングを提供しますが、主要なインタラクションパスは常に構造化されたツリーです。
Claude Coworkは、実行ごとにトークンを消費します。各スクリーンショットは約1,500~3,000トークン(解像度による)であり、これに各決定のための推論トークンが加算されます。20ステップのワークフローでは、1回の実行で40,000~80,000トークンを消費する可能性があります。
そのワークフローを1日10回、1ヶ月に20日間実行すると、毎月数百万トークンを消費することになります。Proプランであっても、その使用量は無視できないでしょう。
Simulangスクリプトのリプレイには費用がかかりません。一度自動化を記述すれば、追加費用なしで永続的に実行できます。API呼び出しも、トークン消費も、使用制限もありません。これにより、Simulangは反復的なワークフローにおいて劇的に経済的になります。
ここが、セキュリティを重視するチームにとって決定的な違いとなります。
Claude Coworkは、デスクトップのフルスクリーンショットを処理のためにAnthropicのサーバーに送信します。キャプチャ時に画面に表示されているすべてのもの(パスワード、財務データ、機密文書、個人メッセージなど)が、サードパーティのAPIに送信されます。Anthropicのデータ保持ポリシーが適用されます。
Simulangは完全にローカルマシン上で動作します。アクセシビリティツリーはローカルで照会され、アクションもローカルで実行されます。データがコンピュータから出ることはありません。Simulangを推論レイヤー用のローカルLLMと組み合わせれば、パイプライン全体がインターネットからエアギャップされます。
コンプライアンス要件のある業界(医療(HIPAA)、金融(SOX)、法務(弁護士・依頼人秘匿特権)など)にとって、この違いは単なる好みではなく、必須要件です。
Coworkには、Simulangにはない真の利点があります。
コード不要のインタラクション。 プレーンな英語でやりたいことを記述するだけで、Coworkがその方法を解明します。スクリプト作成も、セットアップも、プロンプト入力以外の学習曲線もありません。50個のPDFをトピックごとにフォルダに整理する必要がある研究者にとって、Coworkは一行のコードも書かずにそれを処理します。
視覚的理解。 Coworkは、アクセシビリティツリーでは記述されないチャート、グラフ、画像、視覚的なレイアウトを解釈できます。「このダッシュボードを見て傾向を要約してほしい」とClaudeに依頼する場合、Coworkはそれが可能です。視覚的なコンテンツがアクセシビリティツリーにないため、Simulangにはできません。
対話型イテレーション。 Coworkの動作を見守り、中断し、修正指示を与え、自然言語でアプローチを洗練させることができます。そのやり取りは、画面を見ている同僚とペアで作業しているような感覚です。Simulangでは、動作を変更するためにコードを修正する必要があります。
幅広いアプリケーションに対応。 Coworkはスクリーンショットに基づいて動作するため、カスタムの社内ツール、レガシーソフトウェア、非標準のUIフレームワークを持つウェブアプリケーションなど、ピクセルを描画するあらゆるアプリケーションと連携できます。アクセシビリティAPIの実装品質に依存することはありません。
Simulangには、Coworkでは再現できない構造的な利点があります。
プロダクションレベルの信頼性。 1,000回実行しても一度も誤クリックしない自動化が必要な場合、Simulangの決定論的な要素ターゲティングが唯一の選択肢です。Coworkの確率論的なビジョンモデルは、大規模な運用ではいずれ間違いを犯します。
速度が重要なワークフロー。 実行時間が重要となるあらゆるワークフロー(CI/CDパイプライン、リアルタイムデータ入力、高頻度モニタリングなど)には、Simulangのミリ秒単位の実行が必要です。Coworkはアクションごとに数秒の遅延があるため、時間制約のある自動化には不向きです。
コスト重視の運用。 毎日何百もの自動化ワークフローを実行するチームにとって、実行ごとの課金では費用を賄えません。Simulangのゼロコストのリプレイ機能は、大規模な自動化を経済的に実現可能にします。
機密性の高い環境。 デスクトップのスクリーンショットをサードパーティのクラウドサービスに送信すべきではないあらゆる状況。政府機関、医療、金融、法務、および厳格なデータレジデンシー要件を持つあらゆる組織が該当します。
プログラムによる統合。 Simulangスクリプトは、CI/CDパイプラインに組み込んだり、他のアプリケーションから呼び出したり、cronジョブでスケジュールしたり、複雑な多段階ワークフローに構成したりできます。CoworkはClaudeデスクトップアプリでの対話型セッションに限定されます。