Artikel

Das Argument für GUI-Agenten

von Ang Li • Palo Alto, Kalifornien • 23. April 2026

Eine Frage, die ich immer wieder bekomme:

„Wenn wir bereits 80% der wichtigen Aufgaben mit Programmierern lösen können, warum sollten wir dann weiter in GUI investieren?“

In diesem Essay argumentiere ich, dass es so ist, als würde man sagen, dass Menschen keine Hände mehr brauchen, weil sie sprechen können. Es wird immer Aufgaben geben, die die Geschicklichkeit erfordern, die Stimme allein nicht bewältigen kann.
Ich schreibe auch darüber, warum GUI-Agenten für AGI so wichtig sind, warum sie gut für ein vielfältiges KI-Ökosystem sind und ob KI bedeutet, dass Menschen mehr — oder weniger — arbeiten.

Mein Tag mit einem Computeranwender

Vor Kurzem bemerkte ich, dass sich meine Zeit am Computer deutlich auf etwa zwei Stunden am Tag reduziert hatte. Vor einem Jahr war ich locker acht Jahre alt. Der Unterschied besteht darin, dass Computer-Use Agents (CUA) immer besser werden, da die Industrie endlich Agenten entwickelt, die sehen und sich wie Menschen verhalten können.

Mein typischer Tag als CEO eines Tech-Startups der Serie A sieht jetzt so aus. Als Erstes schreibe ich Sai, dem KI-Agenten von Simular, eine SMS und bitte ihn, interessante Beiträge auf X und LinkedIn zu veröffentlichen. Dann bitte ich es, meine E-Mails zu checken, dringende zu kennzeichnen und zu beantworten; manchmal kann ich sogar nicht erkennen, ob die E-Mail von mir oder dem Agenten geschrieben wurde, was mein Temperament und meine Stimme verstanden hat. Wenn ich Code schreiben muss, hole ich mein Handy heraus und weise Sai an, mit Cursor zu sprechen, anstatt mich selbst zu codieren. Am Nachmittag rufe ich oft hintereinander mit Zoom an, also bitte ich den Agenten, zuerst beizutreten und die Leute wissen zu lassen, wenn ich zu spät komme.

Sai kann noch nicht meine gesamte Desktop-Arbeit autonom erledigen, und wir sind immer noch weit davon entfernt, AGI zu erreichen. Programmieragenten wie Claude Code und Cursor erledigen ungefähr 80% der häufigsten, vorhersehbarsten, API-zugänglichen Aufgaben. Aber den Rest können sie nicht lösen, weil sie im Grunde nicht mit menschenähnlichen Wahrnehmungsfähigkeiten ausgestattet sind. Sie liefern Ergebnisse durch Ketten von API-Aufrufen. Im Gegensatz dazu können Menschen frei durch jede Schnittstelle navigieren und Systeme umgehen, die keinen API-Zugriff bieten.

Sai ist so konzipiert, dass es auf der Ebene der Intelligenz der grafischen Benutzeroberfläche (GUI) arbeitet und den langen Schwanz digitaler Aufgaben bewältigt, die nicht über eine Befehlszeile erledigt werden können: Klicken, Tippen und Navigieren zwischen Apps auf Desktop-Ebene. Ein typisches Beispiel ist die Interaktion mit Websites, auf denen keine APIs verfügbar sind, entweder weil Unternehmen Datenwände errichtet haben oder weil die veraltete Software vollständig älter als die SaaS-Ära ist. Ein GUI-gestützter Agent sieht und bedient den Bildschirm wie ein Mensch. In der Praxis kombiniert der effektivste Ansatz beides: Verwenden Sie das Terminal, wenn möglich, aus Effizienzgründen, und greifen Sie auf die GUI zurück, wenn eine Aufgabe dies erfordert.

Warum die GUI nicht verschwindet

Du fragst dich vielleicht:

Wenn wir bereits 80% der wichtigen Aufgaben mit Codierungsagenten lösen können, warum dann weiter in GUI investieren? Werden diese Anwendungsfälle nicht abnehmen, wenn die Softwareschnittstellen immer dünner werden — sie werden auf ein Textfeld reduziert, ein Befehl an ein Rechenzentrum gesendet und ein Ergebnis geliefert?

Das ist so, als würde man sagen, Menschen brauchen keine Hände mehr, weil sie sprechen können. Es wird immer Aufgaben geben, die die Geschicklichkeit erfordern, die Stimme allein nicht bewältigen kann. Es gibt viele Möglichkeiten für Menschen, mit der Außenwelt zu interagieren, und Sprache ist nur eine davon. Solange Software mit Menschen interagieren muss, wird es eine GUI geben. Rein textbasierte Befehle reichen nicht aus, da Sprache von Natur aus mehrdeutig ist — ein und dasselbe Wort kann je nach Kontext unterschiedliche Bedeutungen vermitteln. Und da es immer einfacher wird, Apps zu erstellen, werden sich auch GUIs vermehren. Die langen digitalen Aufgaben werden nicht schrumpfen; wenn überhaupt, konzentrieren sie sich eher auf die Arbeit mit dem höchsten Wert.Text-based commands might be sufficient but people really need very long text to describe the meaning/concept like  lawyers do. Text is easy to be ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.

And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.That's like saying humans no longer need hands because they can speak. There will always be tasks requiring the dexterity that voice alone can't accomplish. There are many ways for humans to interact with the outside world, and speech is just one of them. So long as software needs to interact with humans, GUI will exist. Purely text-based commands aren't sufficient, because language is inherently ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.

Es gibt auch eine strategische Dimension. Wenn Sie sich ausschließlich auf den API-Zugriff verlassen, spielen Sie nach den Regeln der etablierten Unternehmen, die jahrelang ummauerte Gärten angelegt haben. Ein GUI-Agent, der sieht und sich wie ein Mensch verhält, kann diese Mauern umgehen, wenn nicht sogar vollständig einreißen.

Die jüngste Begeisterung für computergestützte Tools wie OpenClaw besteht nicht darin, dass sie gut funktionieren — es ist immer noch hektisch, voller Randfälle und Sicherheitsbedenken. Aber es gibt einen Einblick in die Zukunft autonomer Computer, in der die Rolle der Hardware zurücktritt und Sie lediglich eine Möglichkeit benötigen, mit dem Agenten zu kommunizieren, als ob Sie es mit einem Kollegen tun würden. Wenn GUI-Agenten ihre nächste Funktionsstufe erreicht haben und die GUI-Agenten für normale Verbraucher zugänglich werden, könnte es zu einer weiteren explosionsartigen Akzeptanz von ChatGPT kommen, die die heutige Begeisterung um Programmieragenten in den Schatten stellt.

Was das für 2026 bedeutet

Um einen General Partner von a16z zu zitieren Anish Acharya:

„Wenn Sie dachten, Saas-Pocalypse sei schlecht, warten Sie einfach, bis die Computernutzung später in diesem Jahr richtig gut wird. Die Folgen für etablierte Unternehmen sind hundertmal größer als für Programmierer, weil die Computernutzung asymmetrisch feindlichen Integratoren zugute kommt.“

Wir glauben, dass 2026 das Jahr ist wenn CUAs erwachsen werden und erleben eine dramatische Leistungsverbesserung. Bedeutet das, dass die Menschen weniger arbeiten werden? Nicht unbedingt. Ehrgeizige Menschen werden wahrscheinlich mehr arbeiten, weil sie jetzt, wo die Durchsatzgrenze weggefallen ist, sehen, wozu sie fähig sind. Was heute als produktiv gilt, könnte in sechs Monaten bescheiden aussehen. Die Erwartungen werden steigen — von der Bitte an einen Agenten, ein Formular auszufüllen, über die Bitte, Sie in einem Zoom-Meeting zu vertreten, bis hin zu Aufgaben, die wir noch nicht vollständig artikulieren können. KI-gestützte Mitarbeiter werden nicht langsamer, sie werden die Messlatte nur höher legen. Die menschlichen Bestrebungen stagnieren nicht.

Autonome Computer zu bauen bedeutet nicht, Menschen zu ersetzen. Es bedeutet Zusammenarbeit.

Befreie deine Hände vom Computer. Laden Sie Simular noch heute kostenlos herunter.

Versuche es mit Sai
button-arrow
})