])

Codex vs. Simulang: Welcher KI-Agent steuert Ihren Computer tatsächlich besser?

Ihr Code-Agent kann Code schreiben. Aber kann er einen Spesenbericht einreichen? Eine Desktop-App öffnen? Ein Formular ausfüllen, das eine Anmeldung erfordert?

Das ist die treibende Frage hinter der neuesten Kategorie von KI-Tools: Agenten für die Computernutzung. OpenAIs Codex verfügt jetzt über eine Computer-Nutzungsfunktion, die es dem Agenten ermöglicht, Ihren Bildschirm zu sehen und über Screenshots und Mausklicks mit Anwendungen zu interagieren. Simulars Simulang verfolgt einen grundlegend anderen Ansatz – es liest den Barrierefreiheitsbaum des Betriebssystems und schreibt deterministische Skripte, die ohne ein LLM in der Schleife wiedergegeben werden können.

Ich habe beide mit denselben Desktop-Automatisierungsaufgaben getestet. Hier ist, was ich herausgefunden habe – und wann Sie das eine dem anderen vorziehen sollten.

Was ist Codex?

Codex ist OpenAIs KI-Agent Plattform. Ursprünglich 2021 als Code-Generierungsmodell eingeführt, hat sich Codex zu einem voll ausgestatteten Agenten entwickelt, der Code schreiben, Terminalbefehle ausführen, im Web surfen und – mit seinem neuesten Update – Desktop-Anwendungen über eine Computer-Nutzungsfunktion steuern kann.

Die Computer-Nutzungsfunktion funktioniert, indem sie Screenshots des Benutzerbildschirms erstellt, diese an ein Vision-Modell sendet und Maus-/Tastaturaktionen zurückgibt. Der Agent sieht, was Sie sehen – ein Raster aus Pixeln – und entscheidet, wohin geklickt, was eingegeben und wann gescrollt werden soll.

Codex läuft standardmäßig in einer Cloud-Sandbox. Die Computer-Nutzungsfunktion erweitert dies über eine Plugin-Architektur auf lokale Desktops.

Was ist Simulang?

Simulang ist eine Skriptsprache zur Automatisierung von Browsern, nativen Apps und Workflows auf Betriebssystemebene. Sie ist Open Source, wird installiert mit

‍npm install -g @simular-ai/simulang

und erzeugt TypeScript-Skripte, die über die Barrierefreiheits-APIs des Betriebssystems mit Anwendungen interagieren. Simulang wird produziert und unterstützt von Simular.

Anstatt Screenshots zu betrachten, liest Simulang den Barrierefreiheitsbaum — dieselbe strukturierte Schnittstelle, die Screenreader wie VoiceOver und JAWS verwenden. Jede Schaltfläche, jedes Textfeld, jeder Menüpunkt und jedes Label wird als benanntes, referenzierbares Element verfügbar gemacht. Das Skript interagiert über Referenzen, nicht über Pixelkoordinaten.

Simulang ist konzipiert als Ausgabeformat für Coding-Agenten dienen. Claude Code, Cursor oder jedes LLM-gestützte Coding-Tool kann ein Simulang-Skript einmal schreiben, und dieses Skript wird deterministisch wiedergegeben – ohne dass zur Laufzeit ein LLM erforderlich ist.

How we evaluated

Simulang liest den Bauplan; Codex betrachtet Fotos

Dies ist der zentrale architektonische Unterschied, und er beeinflusst alles Weitere.

Codex Computernutzung macht einen Screenshot (typischerweise 1920x1080 Pixel), sendet ihn an ein Vision-Modell und fragt: „Wo ist der Absenden-Button?“ Das Modell gibt Koordinaten zurück. Codex bewegt die Maus zu diesen Koordinaten und klickt.

Dieser Ansatz hat drei Probleme:

  1. Auflösungsabhängigkeit: Wenn das Fenster seine Größe ändert, ändern sich die Koordinaten. Wenn die OS-Skalierung sich ändert, ändern sich die Koordinaten. Wenn ein Dialogfeld erscheint und das Layout verschiebt, sind die Koordinaten falsch.
  2. Mehrdeutigkeit: Zwei Schaltflächen, die identisch aussehen, aber unterschiedlichen Zwecken dienen (z. B. zwei „Speichern“-Schaltflächen in verschachtelten Dialogfeldern), sind allein anhand der Pixel nicht zu unterscheiden.
  3. Geschwindigkeit: Jede Aktion erfordert einen vollständigen Screenshot, eine Inferenz des Vision-Modells (500 ms-2 s) und eine Antwort. Ein 10-Schritte-Workflow benötigt 10-20 Sekunden reine Inferenzzeit.

Simulang liest den Zugänglichkeitsbaum und weist jedem Element eine stabile Referenz-ID zu. Das Skript sagt tree.activate("ref_42") – nicht „Klick bei Pixel (847, 312)“. Wenn sich das Fenster bewegt, ist die Referenz immer noch gültig. Wenn sich die OS-Skalierung ändert, ist die Referenz immer noch gültig. Wenn ein Dialogfeld erscheint, liest Simulang den neuen Baum und findet das Element anhand seiner semantischen Identität.

Reaktionszeit pro Aktion: Millisekunden. Ein 10-Schritte-Workflow ist in weniger als einer Sekunde abgeschlossen.

Simulang-Skripte laufen ohne LLM; Codex benötigt für jede Aktion eines

Dieser Unterschied bestimmt sowohl Kosten als auch Zuverlässigkeit.

Codex Computernutzung erfordert bei jeder Interaktion einen LLM-Aufruf. Ein Menü öffnen: LLM-Aufruf. Eine Schaltfläche anklicken: LLM-Aufruf. In ein Feld tippen: LLM-Aufruf. Jeder Aufruf kostet Tokens, erhöht die Latenz und birgt die Gefahr von Fehlinterpretationen. Führen Sie denselben Workflow 100 Mal aus, und Sie zahlen für 100 x N LLM-Aufrufe (wobei N die Anzahl der Schritte ist).

Simulang nutzt das LLM genau einmal – zur Skripterstellungszeit. Der Codierungsagent (Claude Code, Cursor usw.) schreibt das Simulang-Skript, und von diesem Zeitpunkt an wird das Skript deterministisch ausgeführt. Führen Sie es 100 Mal aus, und Sie zahlen für 0 zusätzliche LLM-Aufrufe.

Der Kostenunterschied ist nicht unerheblich. Für einen täglichen Workflow mit 20 Schritten, der 5 Tage die Woche läuft:

  • Codex: 20 Schritte x 5 Tage x 4 Wochen = 400 LLM-Aufrufe/Monat. Bei ca. 0,01-0,03 $ pro Aufruf (Preise für Vision-Modelle) sind das 4-12 $/Monat für eine einzelne Automatisierung.
  • Simulang: 1 LLM-Aufruf zum Schreiben des Skripts + 0 $ für die Ausführung. Gesamt: 0,03-0,10 $, einmalig.

Simulang steuert Browser UND native Apps; Codex Computernutzung funktioniert über Screenshots von allem

Beide Tools können mit jeder Anwendung interagieren, die auf dem Bildschirm erscheint – aber der Mechanismus unterscheidet sich.

Codex ist von Haus aus anwendungsunabhängig: Wenn es als Pixel sichtbar ist, kann Codex versuchen, damit zu interagieren. Dies ist wirklich nützlich für Anwendungen, die keine API, keine Barrierefreiheitsunterstützung und keine Automatisierungshooks haben. Legacy-Unternehmenssoftware, benutzerdefinierte gerenderte Oberflächen und Remote-Desktop-Sitzungen sind alle gleichermaßen geeignet.

Simulang verarbeitet Browser nativ (über Barrierefreiheits-APIs im Playwright-Stil) und erstreckt sich auf jede native Anwendung, die Barrierefreiheitsdaten bereitstellt – dazu gehören praktisch alle Standard-macOS-, Windows- und Linux-Anwendungen. Für die seltene Anwendung, die keine Barrierefreiheitsdaten bereitstellt, greift Simulang auf Vision Grounding zurück: Es erstellt einen Screenshot und verwendet ein Vision-Modell, um das Zielelement zu lokalisieren.

Der praktische Unterschied: Simulang nutzt den schnellen, deterministischen Pfad (Barrierefreiheitsbaum) für 95 % der Interaktionen und den langsamen, probabilistischen Pfad (Vision) für die restlichen 5 %. Codex nutzt den langsamen, probabilistischen Pfad für 100 % der Interaktionen.

Codex läuft in einer Cloud-Sandbox; Simulang läuft auf Ihrem Rechner

Codex läuft standardmäßig in einer Cloud-VM. Ihr Code, Ihre Dateien und Ihre Anmeldeinformationen werden in die Infrastruktur von OpenAI hochgeladen. Das Computer Use-Plugin erweitert Codex auf lokale Desktops, aber die Kernarchitektur ist Cloud-basiert.

Simulang läuft vollständig auf Ihrem lokalen Rechner. Skripte werden auf Ihrem tatsächlichen Desktop ausgeführt – Ihren Browsersitzungen, Ihren angemeldeten Anwendungen, Ihrem Dateisystem. Nichts wird hochgeladen. Nichts verlässt Ihren Rechner, es sei denn, das Skript sendet explizit Daten an einen anderen Ort.

Für Unternehmen mit Compliance-Anforderungen (SOC 2, HIPAA, Finanzvorschriften) ist die lokale Ausführung oft unerlässlich. Für einzelne Entwickler, die Arbeitsabläufe mit authentifizierten Sitzungen (E-Mail, Banking, interne Tools) automatisieren möchten, bedeutet die lokale Ausführung, dass keine Anmeldeinformationen geteilt werden müssen.

Comparison Summary

Dimension Codex Computer Use Simulang
Best for Non-technical users wanting natural language desktop control Developers building repeatable, production-grade automations
How it works Screenshots + vision model per action Accessibility tree + deterministic scripts
Perception Pixel-level (screenshots) Semantic (accessibility tree) + vision fallback
Speed per action 2-4 seconds (LLM inference) ~50 milliseconds (local tree read)
LLM at runtime Required for every action Not required (scripts replay deterministically)
Scope Anything visible as pixels Browsers + native apps + system dialogs
Execution Cloud sandbox (with local plugin option) Local machine only
Data privacy Screenshots sent to OpenAI servers Everything runs locally, nothing uploaded
Cost per run $0.01-0.03 per action (token costs) $0 (after initial script authoring)
Pricing ChatGPT Pro $200/month or API pay-per-use Free and open source
Open source Partially (Codex CLI is open source) Yes (fully open source)

Wo Codex Computer Use klare Vorteile hat

Fairness ist wichtig. Hier hat Codex echte Vorteile:

  • Keine Einrichtung für nicht-technische Benutzer: Der Screenshot-Ansatz von Codex erfordert kein Verständnis von Accessibility Trees, Refs oder Skripting. Sie beschreiben in natürlicher Sprache, was Sie möchten, und der Agent versucht, es umzusetzen. Simulang erfordert das Schreiben (oder Generieren) eines Skripts.
  • Funktioniert auf Remote-Desktops und VMs: Codex kann eine Remote-Desktop-Sitzung steuern, die als Pixel auf Ihrem Bildschirm erscheint. Simulang erfordert lokalen OS-Level-Zugriff auf die Accessibility APIs, die Remote-Desktop-Protokolle typischerweise nicht freigeben.
  • Integrierte Codierungsumgebung: Codex ist ein voll ausgestatteter Coding-Agent mit Terminalzugriff, Dateibearbeitung und Code-Ausführung. Simulang ist ein Desktop-Automatisierungs-Framework – es schreibt nicht Ihren Anwendungscode.
  • Anwendungsunabhängig: Wenn es als Pixel gerendert wird, kann Codex versuchen, damit zu interagieren – einschließlich älterer Unternehmenssoftware, benutzerdefinierter gerenderter Canvases und proprietärer Apps ohne jegliche Barrierefreiheitsunterstützung.

Wo Simulang klare Vorteile hat

  • Geschwindigkeit: Jede Simulang-Aktion dauert ca. 50 Millisekunden (Lesen des Accessibility Tree). Jede Codex-Aktion dauert 2-4 Sekunden (Screenshot + Inferenz des Vision-Modells). Ein 15-Schritte-Workflow mit Simulang ist in weniger als einer Sekunde abgeschlossen; mit Codex dauert derselbe Workflow 30-60 Sekunden.
  • Zuverlässigkeit: Simulang interagiert über semantische Referenzen, nicht über Pixelkoordinaten. Wenn ein Fenster seine Größe ändert, ein Dialogfeld erscheint oder die OS-Skalierung sich ändert, bleibt die Referenz gültig. Die Koordinaten von Codex funktionieren bei jeder Layoutänderung nicht mehr.
  • Kosten bei Skalierung: Simulang-Skripte kosten nach der erstmaligen Erstellung 0 $ pro Ausführung. Codex erfordert für jede Aktion in jedem Durchlauf einen LLM-Aufruf – ein täglicher Workflow mit 20 Schritten kostet bei Codex 4-12 $/Monat, bei Simulang einmalig 0,05 $.
  • Datenschutz und Compliance: Simulang läuft vollständig auf Ihrem lokalen Rechner. Es verlassen keine Screenshots Ihren Computer. Es werden keine Anmeldeinformationen geteilt. Codex sendet Screenshots zur Verarbeitung durch das Vision-Modell an die OpenAI-Cloud.
  • Plattformübergreifend: Simulang unterstützt heute macOS, Windows und Linux. Die Unterstützung von Codex Computer Use variiert je nach Plattform und Verfügbarkeit von Plugins.
  • Native App-Steuerung: Simulang steuert Browser UND native Desktop-Anwendungen (Excel, Slack, Finder, E-Mail-Clients, Systemdialoge) über dieselbe Barrierefreiheits-API. Codex behandelt alles als Pixel – funktional, aber ohne semantisches Verständnis dessen, worauf geklickt wird.
  • Deterministische Wiedergabe: Ein heute geschriebenes Simulang-Skript läuft morgen, nächste Woche und nächsten Monat identisch ab, ohne jegliche LLM-Beteiligung. Codex muss den Bildschirm bei jeder Ausführung neu interpretieren, was zu Variabilität bei jedem Durchlauf führt.

Preise

Codex

Simulang

Codex vs. Simulang: Welches sollten Sie wählen?

Wählen Sie Codex, wenn:

  • Sie einen universellen KI-Codierungsagenten wünschen, der auch Ihren Desktop steuern kann
  • Sie Anweisungen in natürlicher Sprache gegenüber Skripting bevorzugen
  • Sie Remotedesktop-Sitzungen oder VMs automatisieren müssen
  • Sie bereits Teil des OpenAI/ChatGPT-Ökosystems sind

Wählen Sie Simulang, wenn:

  • Sie eine deterministische, wiederholbare Desktop-Automatisierung benötigen, die ohne laufende LLM-Kosten ausgeführt wird
  • Sie Workflows über Browser UND native Desktop-Anwendungen hinweg automatisieren möchten
  • Ihnen Geschwindigkeit wichtig ist – Millisekunden-Reaktionszeiten im Vergleich zu Sekunden pro Aktion
  • Sie eine lokale Ausführung für Compliance oder die Sicherheit von Anmeldeinformationen benötigen
  • Sie möchten, dass Ihr Codierungsagent (Claude Code, Cursor) Automatisierungsskripte schreibt, die er übergeben kann

Für die meisten Entwickler, die Produktionsautomatisierungs-Workflows erstellen, ist Simulang die praktischere Wahl: Schreiben Sie das Skript einmal, führen Sie es unbegrenzt aus, zahlen Sie nichts pro Ausführung. Für Ad-hoc-Desktop-Aufgaben, bei denen Sie eine KI auf Ihren Bildschirm richten und sagen möchten „mach das“, ist Codex Computer Use schneller einsatzbereit.

Die beiden Tools schließen sich nicht gegenseitig aus. Sie können Codex (oder Claude Code oder Cursor) verwenden, um Simulang-Skripte zu schreiben – und erhalten das Beste aus beiden Welten: LLM-Intelligenz zur Erstellungszeit, deterministische Ausführung zur Laufzeit.

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai

FAQs

})