GUI エージェントの事例
アン・リー著 • カリフォルニア州パロアルト • 2026年4月23日

よく聞かれる質問:
「重要なタスクの80%をコーディングエージェントですでに解決できるのなら、なぜGUIに投資し続けるのか?」
このエッセイでは、人間は話すことができるので、もはや手は必要ないと言っているようなものだと私は主張します。声だけでは成し遂げられない器用さを必要とする作業は常にあります。
また、なぜGUIエージェントがAGIにとって重要なのか、なぜGUIエージェントが多様なAIエコシステムに良いのか、そしてAIによって人間の仕事が増えるのか、それとも少なくなるのかについても書いています。
コンピューター使用エージェントとの私の一日
最近、コンピューターの使用時間が1日約2時間に大幅に短縮されたことに気付きました。一年前、私は簡単に8歳になっていました。違いは、コンピューター使用エージェント (CUA) がだんだん良くなってきているという点です。業界がついに人間のように見て行動できるエージェントが作られるようになったからです。
シリーズAのテック系スタートアップのCEOとしての私の典型的な日々は、今ではこんな感じです。朝一番に、SimularのAIエージェントであるSaiにテキストメッセージを送り、XとLinkedInで興味深い投稿を表示するように依頼します。次に、私のメールをチェックし、フラグを立て、緊急のメールに返信するように依頼します。メールが私が書いたものなのか、エージェントが書いたものなのか分からないこともあります。エージェントが私の気質と声を上げてくれます。コードを書く必要がある場合は、実際に自分でコーディングするのではなく、携帯電話を取り出して Cursor に話しかけるように Sai に指示します。午後は、Zoomで連続して電話をかけることが多いので、まずエージェントに参加してもらい、遅れる場合はその旨を伝えるようにしています。
Saiはまだ私のデスクトップの仕事をすべて自律的に行うことができず、AGIに到達するまでにはまだいくらかの距離があります。Claude Code や Cursor などのコーディングエージェントは、最も一般的で予測可能な API アクセス可能なタスクの約 80% を処理します。しかし、それ以外は解決できません。というのも、基本的には人間のような知覚機能を備えていないからです。API 呼び出しの連鎖を通じて成果を出します。これとは対照的に、人間は API アクセスを提供しないシステムを迂回して、どのインターフェースでも自由に移動できます。
Saiはグラフィカル・ユーザー・インターフェース(GUI)インテリジェンスのレベルで動作するように設計されており、デスクトップレベルでのアプリ間のクリック、入力、ナビゲートなど、コマンドラインでは実行できない長いデジタルタスクを処理します。典型的な例としては、企業がデータウォールを構築しているためか、レガシーソフトウェアがSaaS時代よりずっと前から存在していたために、APIを公開していないウェブサイトとのやりとりが挙げられます。GUI ベースのエージェントは、人間と同じように画面を見て操作します。実際には、最も効果的なアプローチは、可能であれば端末を使用して効率化を図り、タスクが必要になったら GUI に戻るという 2 つの方法を組み合わせたものです。
GUIが消えない理由
あなたはこう尋ねるかもしれません:
重要なタスクの 80% をコーディングエージェントですでに解決できるのなら、GUI に投資し続ける必要はありません。ソフトウェア・インターフェースが薄くなるにつれて、こうしたユースケースは、テキスト・フィールド、データ・センターへのコマンド送信、そして結果の配信といった形に縮小されるのではないでしょうか。
それは、人間が話すことができるので、もはや手は必要ないと言っているようなものです。声だけでは成し遂げられない器用さを必要とする作業は常に存在します。人間が外の世界と対話する方法はたくさんありますが、音声はその1つにすぎません。ソフトウェアが人間と対話する必要がある限り、GUI は存在し続けます。純粋にテキストベースのコマンドだけでは十分ではありません。なぜなら、言語は本質的に曖昧であり、同じ単語でも文脈によって異なる意味を伝えることができるからです。また、アプリケーションの構築がこれまでになく簡単になるにつれて、GUI も増えていくでしょう。ロングテールのデジタルタスクは縮小しません。どちらかといえば、最も価値の高い作業に集中する傾向があります。Text-based commands might be sufficient but people really need very long text to describe the meaning/concept like lawyers do. Text is easy to be ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.
戦略的な側面もあります。API アクセスだけに頼るということは、壁に囲まれた庭を何年もかけて築いてきた既存企業のルールに従って行動することを意味します。人間のように見えて行動するGUIエージェントは、壁を完全に破壊することはできないにしても、壁をすり抜けることができます。
OpenClawのようなコンピューターを使用するツールが最近注目されているのは、それがうまく機能するということではなく、エッジケースやセキュリティ上の懸念が満載で、まだぎこちないものです。しかし、ハードウェアの役割は後退し、必要なのは同僚のようにエージェントと通信する方法だけである自律型コンピューターの未来を垣間見ることができます。GUIエージェントが次の機能ステップの機能に着手したとき、GUIエージェントが日常的に利用できるようになれば、ChatGPTレベルの爆発的な採用が再び見られるかもしれません。これは、今日のコーディングエージェントに関する話題をはるかに超えるものです。
これが2026年にとって何を意味するのか
a16zゼネラルパートナーの見積もりはこちら アニッシュ・アチャリヤ:
「Saas-pocalypseが悪いと思ったら、今年後半にコンピューターの使用が本当に良くなるのを待ってください。コンピュータの使用は敵対的なインテグレーターに非対称的に利益をもたらすため、既存企業に対する影響はコーディングエージェントの100倍です。」
2026年はその年だと私たちは信じています CUAが成長するとき パフォーマンスの劇的な向上を体験できます。つまり、人間の労働力が減るということでしょうか?必ずしもそうとは限りません。野心のある人は、スループットの上限がなくなった今、自分に何ができるかがわかっているので、もっと働くだろう。今日生産的と考えられているものが、6 か月後には控えめに見えるかもしれません。エージェントにフォームへの記入を依頼することから、Zoomミーティングで代理してもらうこと、まだ完全に説明できないタスクまで、期待は高まるでしょう。AI を活用した従業員はペースを落とすことはありません。彼らはただハードルを上げるだけです。人間の願望は横ばいにはならない。
自律型コンピュータを構築しても、人間が置き換えられるわけではありません。それは協力を意味する。
コンピューターから手を離してください。Simular を今すぐ無料でダウンロードしてください。