])

Ihr Code-Agent kann Code schreiben. Aber kann er einen Spesenbericht einreichen? Eine Desktop-App öffnen? Ein Formular ausfüllen, das eine Anmeldung erfordert?
Das ist die treibende Frage hinter der neuesten Kategorie von KI-Tools: Agenten für die Computernutzung. OpenAIs Codex verfügt jetzt über eine Computer-Nutzungsfunktion, die es dem Agenten ermöglicht, Ihren Bildschirm zu sehen und über Screenshots und Mausklicks mit Anwendungen zu interagieren. Simulars Simulang verfolgt einen grundlegend anderen Ansatz – es liest den Barrierefreiheitsbaum des Betriebssystems und schreibt deterministische Skripte, die ohne ein LLM in der Schleife wiedergegeben werden können.
Ich habe beide mit denselben Desktop-Automatisierungsaufgaben getestet. Hier ist, was ich herausgefunden habe – und wann Sie das eine dem anderen vorziehen sollten.

Codex ist OpenAIs KI-Agent Plattform. Ursprünglich 2021 als Code-Generierungsmodell eingeführt, hat sich Codex zu einem voll ausgestatteten Agenten entwickelt, der Code schreiben, Terminalbefehle ausführen, im Web surfen und – mit seinem neuesten Update – Desktop-Anwendungen über eine Computer-Nutzungsfunktion steuern kann.
Die Computer-Nutzungsfunktion funktioniert, indem sie Screenshots des Benutzerbildschirms erstellt, diese an ein Vision-Modell sendet und Maus-/Tastaturaktionen zurückgibt. Der Agent sieht, was Sie sehen – ein Raster aus Pixeln – und entscheidet, wohin geklickt, was eingegeben und wann gescrollt werden soll.
Codex läuft standardmäßig in einer Cloud-Sandbox. Die Computer-Nutzungsfunktion erweitert dies über eine Plugin-Architektur auf lokale Desktops.

Simulang ist eine Skriptsprache zur Automatisierung von Browsern, nativen Apps und Workflows auf Betriebssystemebene. Sie ist Open Source, wird installiert mit
npm install -g @simular-ai/simulangund erzeugt TypeScript-Skripte, die über die Barrierefreiheits-APIs des Betriebssystems mit Anwendungen interagieren. Simulang wird produziert und unterstützt von Simular.
Anstatt Screenshots zu betrachten, liest Simulang den Barrierefreiheitsbaum — dieselbe strukturierte Schnittstelle, die Screenreader wie VoiceOver und JAWS verwenden. Jede Schaltfläche, jedes Textfeld, jeder Menüpunkt und jedes Label wird als benanntes, referenzierbares Element verfügbar gemacht. Das Skript interagiert über Referenzen, nicht über Pixelkoordinaten.
Simulang ist konzipiert als Ausgabeformat für Coding-Agenten dienen. Claude Code, Cursor oder jedes LLM-gestützte Coding-Tool kann ein Simulang-Skript einmal schreiben, und dieses Skript wird deterministisch wiedergegeben – ohne dass zur Laufzeit ein LLM erforderlich ist.
Dies ist der zentrale architektonische Unterschied, und er beeinflusst alles Weitere.
Codex Computernutzung macht einen Screenshot (typischerweise 1920x1080 Pixel), sendet ihn an ein Vision-Modell und fragt: „Wo ist der Absenden-Button?“ Das Modell gibt Koordinaten zurück. Codex bewegt die Maus zu diesen Koordinaten und klickt.
Dieser Ansatz hat drei Probleme:
Simulang liest den Zugänglichkeitsbaum und weist jedem Element eine stabile Referenz-ID zu. Das Skript sagt tree.activate("ref_42") – nicht „Klick bei Pixel (847, 312)“. Wenn sich das Fenster bewegt, ist die Referenz immer noch gültig. Wenn sich die OS-Skalierung ändert, ist die Referenz immer noch gültig. Wenn ein Dialogfeld erscheint, liest Simulang den neuen Baum und findet das Element anhand seiner semantischen Identität.
Reaktionszeit pro Aktion: Millisekunden. Ein 10-Schritte-Workflow ist in weniger als einer Sekunde abgeschlossen.
Dieser Unterschied bestimmt sowohl Kosten als auch Zuverlässigkeit.

Codex Computernutzung erfordert bei jeder Interaktion einen LLM-Aufruf. Ein Menü öffnen: LLM-Aufruf. Eine Schaltfläche anklicken: LLM-Aufruf. In ein Feld tippen: LLM-Aufruf. Jeder Aufruf kostet Tokens, erhöht die Latenz und birgt die Gefahr von Fehlinterpretationen. Führen Sie denselben Workflow 100 Mal aus, und Sie zahlen für 100 x N LLM-Aufrufe (wobei N die Anzahl der Schritte ist).
Simulang nutzt das LLM genau einmal – zur Skripterstellungszeit. Der Codierungsagent (Claude Code, Cursor usw.) schreibt das Simulang-Skript, und von diesem Zeitpunkt an wird das Skript deterministisch ausgeführt. Führen Sie es 100 Mal aus, und Sie zahlen für 0 zusätzliche LLM-Aufrufe.
Der Kostenunterschied ist nicht unerheblich. Für einen täglichen Workflow mit 20 Schritten, der 5 Tage die Woche läuft:

Beide Tools können mit jeder Anwendung interagieren, die auf dem Bildschirm erscheint – aber der Mechanismus unterscheidet sich.
Codex ist von Haus aus anwendungsunabhängig: Wenn es als Pixel sichtbar ist, kann Codex versuchen, damit zu interagieren. Dies ist wirklich nützlich für Anwendungen, die keine API, keine Barrierefreiheitsunterstützung und keine Automatisierungshooks haben. Legacy-Unternehmenssoftware, benutzerdefinierte gerenderte Oberflächen und Remote-Desktop-Sitzungen sind alle gleichermaßen geeignet.
Simulang verarbeitet Browser nativ (über Barrierefreiheits-APIs im Playwright-Stil) und erstreckt sich auf jede native Anwendung, die Barrierefreiheitsdaten bereitstellt – dazu gehören praktisch alle Standard-macOS-, Windows- und Linux-Anwendungen. Für die seltene Anwendung, die keine Barrierefreiheitsdaten bereitstellt, greift Simulang auf Vision Grounding zurück: Es erstellt einen Screenshot und verwendet ein Vision-Modell, um das Zielelement zu lokalisieren.
Der praktische Unterschied: Simulang nutzt den schnellen, deterministischen Pfad (Barrierefreiheitsbaum) für 95 % der Interaktionen und den langsamen, probabilistischen Pfad (Vision) für die restlichen 5 %. Codex nutzt den langsamen, probabilistischen Pfad für 100 % der Interaktionen.
Codex läuft standardmäßig in einer Cloud-VM. Ihr Code, Ihre Dateien und Ihre Anmeldeinformationen werden in die Infrastruktur von OpenAI hochgeladen. Das Computer Use-Plugin erweitert Codex auf lokale Desktops, aber die Kernarchitektur ist Cloud-basiert.
Simulang läuft vollständig auf Ihrem lokalen Rechner. Skripte werden auf Ihrem tatsächlichen Desktop ausgeführt – Ihren Browsersitzungen, Ihren angemeldeten Anwendungen, Ihrem Dateisystem. Nichts wird hochgeladen. Nichts verlässt Ihren Rechner, es sei denn, das Skript sendet explizit Daten an einen anderen Ort.
Für Unternehmen mit Compliance-Anforderungen (SOC 2, HIPAA, Finanzvorschriften) ist die lokale Ausführung oft unerlässlich. Für einzelne Entwickler, die Arbeitsabläufe mit authentifizierten Sitzungen (E-Mail, Banking, interne Tools) automatisieren möchten, bedeutet die lokale Ausführung, dass keine Anmeldeinformationen geteilt werden müssen.
Fairness ist wichtig. Hier hat Codex echte Vorteile:
Für die meisten Entwickler, die Produktionsautomatisierungs-Workflows erstellen, ist Simulang die praktischere Wahl: Schreiben Sie das Skript einmal, führen Sie es unbegrenzt aus, zahlen Sie nichts pro Ausführung. Für Ad-hoc-Desktop-Aufgaben, bei denen Sie eine KI auf Ihren Bildschirm richten und sagen möchten „mach das“, ist Codex Computer Use schneller einsatzbereit.
Die beiden Tools schließen sich nicht gegenseitig aus. Sie können Codex (oder Claude Code oder Cursor) verwenden, um Simulang-Skripte zu schreiben – und erhalten das Beste aus beiden Welten: LLM-Intelligenz zur Erstellungszeit, deterministische Ausführung zur Laufzeit.