])

Claude Cowork vs. SimuLang: Welchen Desktop-KI-Agenten sollten Sie verwenden?

Anthropic hat Claude Cowork eingeführt – eine Funktion, die es Claude ermöglicht, Ihren Mac- oder Windows-Desktop mittels Screenshots und Mausklicks zu steuern. Es kann Apps öffnen, Formulare ausfüllen und Menüs navigieren, während Sie zusehen. Es fühlt sich an wie Magie, wenn man es zum ersten Mal sieht.

Dann sehen Sie, wie es den falschen Knopf anklickt, weil zwei Symbole ähnlich aussahen. Oder Sie warten 4 Sekunden zwischen jeder Aktion, während das Vision-Modell einen weiteren Screenshot verarbeitet. Oder Sie fragen sich, was mit Ihren Bankdaten passiert, wenn Screenshots zur Interpretation an die Server von Anthropic gesendet werden.

Simulang löst alle drei Probleme. Es liest den Barrierefreiheitsbaum anstelle von Screenshots, führt in Millisekunden statt in Sekunden aus und läuft vollständig auf Ihrem lokalen Rechner. Aber Cowork hat auch Vorteile – insbesondere für nicht-technische Benutzer, die auf ihren Bildschirm zeigen und sagen wollen: „Mach das.“

Ich habe beide mit denselben Desktop-Workflows getestet. Hier ist der ehrliche Vergleich.

Was ist Claude Cowork?

Claude Cowork ist eine Funktion von Anthropic zur Computernutzung, verfügbar in der Claude Desktop-App. Es ermöglicht Claude, Ihren Bildschirm mittels Screenshots zu sehen, Ihre Maus zu bewegen, Elemente anzuklicken und Text einzugeben – und so Ihren Desktop effektiv so zu steuern, wie es ein Mensch tun würde.

Der Interaktionszyklus funktioniert so: Cowork macht einen Screenshot, sendet ihn an Claudes Vision-Modell, identifiziert UI-Elemente anhand von Pixeln, entscheidet, welche Aktion auszuführen ist, führt sie aus, macht einen weiteren Screenshot zur Überprüfung und wiederholt den Vorgang. Jede einzelne Aktion durchläuft diesen Screenshot-Begründung-Aktions-Zyklus.

Cowork entstand, als nicht-technische Teams bei Anthropic begannen, die Chat-Oberfläche zu umgehen, um Claude Code für Wissensarbeitsaufgaben zu nutzen. Anthropic entwickelte Cowork als vereinfachte Version derselben Computernutzungsfunktion und richtet sich an Forscher, Analysten, Operations-Teams und alle, die täglich mit Dokumenten und Daten arbeiten.

Preise: Claude Pro (20 $/Monat), Team (30 $/Monat pro Platz) und Enterprise-Pläne. Jede Aktion verbraucht API-Tokens über die Screenshot-Verarbeitungspipeline.

Was ist Simulang?

Simulang ist eine Open-Source-JavaScript-Bibliothek, die Desktop-Anwendungen automatisiert, indem sie den Barrierefreiheitsbaum des Betriebssystems liest – dieselben strukturierten Daten, die auch Screenreader verwenden. Anstatt Pixel zu betrachten, versteht Simulang die Rolle jedes UI-Elements (Schaltfläche, Textfeld, Menüpunkt), seinen Namen, seinen Zustand und seine genaue Position.

Sie schreiben Automatisierungsskripte in JavaScript. Diese Skripte interagieren mit jeder Desktop-Anwendung – Browsern, Tabellenkalkulationen, E-Mail-Clients, Terminals – durch präzise Elementreferenzen statt durch Koordinatenraten. Einmal geschrieben, werden Skripte sofort wiedergegeben, ohne API-Tokens zu verbrauchen.

Simulang ermöglicht Sai, der KI-Agent, der es als Ausführungsebene nutzt. Wenn Sai einen Workflow automatisiert, verwendet es den zugrunde liegenden Zugänglichkeitsbaum von Simulang.

Preise: Simulang ist kostenlos und Open Source. Sai (der auf Simulang basierende KI-Agent) bietet eine kostenlose Stufe und kostenpflichtige Pläne ab 20 $/Monat.

How we evaluated

Wie sie Ihren Desktop steuern

Claude Cowork: Screenshot-basierte Vision

Cowork erfasst Ihren gesamten Bildschirm als Bild, skaliert es herunter, damit es in Claudes Kontextfenster passt, und sendet es an Anthropic-Server. Das Vision-Modell interpretiert den Screenshot, um Schaltflächen, Menüs, Textfelder und andere Elemente basierend auf ihrem Aussehen zu identifizieren. Anschließend gibt es Mauskoodinaten für den Klickpunkt zurück.

Dieser Ansatz hat eine inhärente Genauigkeitsgrenze. Kleine UI-Elemente, kontrastarmer Text und ähnlich aussehende Symbole können das Vision-Modell verwirren. Ein Dropdown-Menü mit 20 Einträgen sieht für ein Vision-Modell anders aus als für einen Menschen, der jede Zeile lesen kann. Wenn Cowork falsch klickt, macht es einen weiteren Screenshot, erkennt den Fehler und versucht, sich zu erholen – was mehr Zeit und Token-Verbrauch bedeutet.

Simulang: Parsen des Zugänglichkeitsbaums

Simulang fragt die Barrierefreiheits-API des Betriebssystems ab (UI Automation unter Windows, AXTree unter macOS). Dies gibt einen strukturierten Baum jedes UI-Elements auf dem Bildschirm zurück, einschließlich Elementen, die technisch außerhalb des Bildschirms liegen oder hinter anderen Fenstern verborgen sind. Jedes Element enthält seine Rolle, seinen Namen, seinen Wert und seinen Zustand – keine Interpretation erforderlich.

Das Klicken auf eine Schaltfläche bedeutet, sie über ihren Zugänglichkeits-Identifikator zu referenzieren, nicht zu erraten, wo sie sich auf dem Bildschirm befindet. Es gibt keine Mehrdeutigkeit. Eine Schaltfläche namens „Senden“ ist immer „Senden“, unabhängig von Bildschirmauflösung, Schriftgröße, Dunkelmodus oder Fensterposition.

Geschwindigkeit: Millisekunden vs. Sekunden

Jede Claude Cowork-Aktion folgt dieser Pipeline:

  1. Screenshot aufnehmen (~500 ms)
  2. Herunterskalieren und kodieren (~100 ms)
  3. Hochladen zur Anthropic API (~500 ms)
  4. Reasoning des Vision-Modells (~2-3 s)
  5. Koordinaten zurückgeben (~200 ms)
  6. Ausführung einer Maus-/Tastaturaktion (~100 ms)

Gesamt pro Aktion: 3 bis 5 Sekunden.

Simulangs Pipeline:

  1. Abfrage des Barrierefreiheitsbaum-Elements per Referenz (~5 ms)
  2. Aktion ausführen (~10 ms)

Gesamt pro Aktion: unter 50 Millisekunden.

Ein 10-Schritte-Workflow benötigt mit Cowork 30 bis 50 Sekunden. Simulang ist in weniger als einer Sekunde fertig. Bei einer 20-schrittigen Formularausfüllaufgabe sehen Sie Cowork fast zwei Minuten lang arbeiten, während Simulang diese erledigt, bevor Sie diesen Satz zu Ende gelesen haben.

Dies ist kein geringfügiger Unterschied. Es ist ein 100-facher Geschwindigkeitsunterschied, der sich mit jedem Schritt potenziert.

Genauigkeit: strukturierte Daten vs. Pixelinterpretation

Die Genauigkeit von Claude Cowork hängt vollständig davon ab, wie gut das Vision-Modell jeden Screenshot interpretiert. Anthropic hat dies seit der ursprünglichen Computer Use-Vorschau erheblich verbessert, aber bestimmte Szenarien verursachen immer wieder Probleme:

  • Kleiner Text oder kleine Symbole: Cowork skaliert Screenshots herunter, bevor sie an das Modell gesendet werden. Kleingedrucktes, kleine Symbolleistensymbole und dichte Tabellen verlieren beim Herunterskalieren an Details.
  • Ähnlich aussehende Elemente: Zwei Schaltflächen mit nahezu identischen Symbolen, aber unterschiedlichen Funktionen. Eine Liste von Dateinamen, bei denen sich nur die Erweiterung unterscheidet. Cowork wählt manchmal das falsche aus.
  • Dynamische Inhalte: Dropdown-Menüs, Auto-Vervollständigungsvorschläge und Lade-Animationen ändern den Bildschirmzustand zwischen Screenshot-Erfassung und Aktionsausführung.
  • UIs mit hoher Dichte: Anwendungen wie Excel, VS Code oder Figma vereinen Dutzende kleiner Steuerelemente auf engstem Raum. Die pixelgenaue Koordinatenansprache in diesen Oberflächen ist unzuverlässig.

Simulang hat diese Probleme nicht. Es liest Element-Metadaten direkt vom Betriebssystem. Ein Button ist ein Button, mit einem Namen und einer Position, unabhängig davon, wie er auf dem Bildschirm dargestellt wird. Die Genauigkeit beträgt effektiv 100 % für jedes Element, das im Barrierefreiheitsbaum existiert.

Einschränkung: Einige Anwendungen weisen eine schlechte Barrierefreiheitsimplementierung auf. Spiele, benutzerdefinierte gerenderte Canvas-Elemente und einige Electron-Apps legen möglicherweise nicht alle Elemente über die Barrierefreiheits-API offen. Für diese Fälle bietet Simulang eine visuell basierte Verankerung als Fallback – der primäre Interaktionspfad ist jedoch immer der strukturierte Baum.

Kosten: kostenlose Wiederholung vs. Bezahlung pro Ausführung

Claude Cowork verbraucht bei jeder Ausführung Tokens. Jeder Screenshot umfasst etwa 1.500 bis 3.000 Tokens (abhängig von der Auflösung), zuzüglich der Reasoning-Tokens für jede Entscheidung. Ein Workflow mit 20 Schritten könnte pro Durchlauf 40.000 bis 80.000 Tokens verbrauchen.

Führen Sie diesen Workflow 10 Mal pro Tag, 20 Tage pro Monat aus, und Sie verbrauchen monatlich Millionen von Tokens – selbst mit einem Pro-Plan werden Sie den Verbrauch bemerken.

Simulang-Skripte können kostenlos wiederholt werden. Sie schreiben die Automatisierung einmal, und sie läuft für immer ohne Grenzkosten. Keine API-Aufrufe, kein Token-Verbrauch, keine Nutzungslimits. Dies macht Simulang für repetitive Workflows erheblich wirtschaftlicher.

Scenario Claude Cowork (monthly) Simulang (monthly)
20-step workflow, once daily ~1.2M tokens ($6-12 on API) $0
20-step workflow, 10x daily ~12M tokens ($60-120) $0
50-step workflow, 5x daily ~15M tokens ($75-150) $0
Team of 10, mixed workflows $300+/month + $30/seat $0 (open source)
Execution time (20 steps) 60-100 seconds Under 1 second

Datenschutz: lokale Ausführung vs. Cloud-Screenshots

Hier wird der Unterschied für sicherheitsbewusste Teams entscheidend.

Claude Cowork sendet vollständige Screenshots Ihres Desktops zur Verarbeitung an die Server von Anthropic. Alles, was zum Zeitpunkt der Aufnahme auf Ihrem Bildschirm sichtbar ist – Passwörter, Finanzdaten, vertrauliche Dokumente, persönliche Nachrichten – wird an eine Drittanbieter-API übertragen. Es gelten die Datenaufbewahrungsrichtlinien von Anthropic.

Simulang läuft vollständig auf Ihrem lokalen Rechner. Der Barrierefreiheitsbaum wird lokal abgefragt. Aktionen werden lokal ausgeführt. Es verlassen keine Daten Ihren Computer. Wenn Sie Simulang mit einem lokalen LLM für die Reasoning-Schicht koppeln, ist die gesamte Pipeline vom Internet isoliert (air-gapped).

Für Branchen mit Compliance-Anforderungen – Gesundheitswesen (HIPAA), Finanzen (SOX), Recht (Anwaltsgeheimnis) – ist diese Unterscheidung keine Präferenz. Sie ist eine Anforderung.

Comparison Summary

Dimension Claude Cowork Simulang
Developer Anthropic Simular
How it sees the screen Screenshots (pixel interpretation) Accessibility tree (semantic data)
Speed per action 3-5 seconds Under 50 milliseconds
Accuracy Probabilistic (vision model) Deterministic (element references)
Replay cost Tokens consumed every run $0 after initial script
Data privacy Screenshots sent to Anthropic cloud 100% local execution
Coding required No (natural language) Yes (JavaScript)
Visual understanding Yes (charts, images, layouts) No (structural data only)
Platform macOS, Windows (Claude app) Windows, macOS, Linux
Best for Ad-hoc tasks, visual analysis Repeatable automations at scale

Wo Claude Cowork die bessere Wahl ist

Cowork bietet echte Vorteile, die Simulang nicht erreicht:

Zero-Code-Interaktion. Sie beschreiben, was Sie möchten, in einfachem Englisch, und Cowork findet heraus, wie es geht. Es gibt kein Scripting, keine Einrichtung, keine Lernkurve außer der Eingabe eines Prompts. Für einen Forscher, der 50 PDFs thematisch in Ordner sortieren muss, erledigt Cowork dies, ohne eine einzige Zeile Code schreiben zu müssen.

Visuelles Verständnis. Cowork kann Diagramme, Grafiken, Bilder und visuelle Layouts interpretieren, die der Zugänglichkeitsbaum nicht beschreibt. Wenn Sie möchten, dass Claude „dieses Dashboard ansieht und die Trends zusammenfasst“, kann Cowork das tun – Simulang kann das nicht, da der visuelle Inhalt nicht im Zugänglichkeitsbaum enthalten ist.

Konversationsbasierte Iteration. Sie können Cowork bei der Arbeit zusehen, es unterbrechen, Korrekturen geben und den Ansatz in natürlicher Sprache verfeinern. Die Interaktion fühlt sich an wie die Zusammenarbeit mit einem Kollegen, der Ihren Bildschirm sehen kann. Simulang erfordert die Änderung von Code, um das Verhalten anzupassen.

Breite Anwendungsunterstützung. Da Cowork mit Screenshots arbeitet, kann es mit jeder Anwendung interagieren, die Pixel rendert – einschließlich benutzerdefinierter interner Tools, älterer Software und Webanwendungen mit nicht-standardmäßigen UI-Frameworks. Es hängt nicht von der Implementierungsqualität der Barrierefreiheits-API ab.

Wann Simulang die bessere Wahl ist

Simulang bietet strukturelle Vorteile, die Cowork nicht nachbilden kann:

Produktionsreife Zuverlässigkeit. Wenn eine Automatisierung 1.000 Mal ohne einen einzigen Fehlklick ausgeführt werden muss, ist Simulangs deterministische Elementausrichtung die einzige Option. Coworks probabilistisches Visionsmodell wird bei großem Umfang irgendwann Fehler machen.

Geschwindigkeitskritische Workflows. Jeder Workflow, bei dem die Ausführungszeit entscheidend ist – CI/CD-Pipelines, Echtzeit-Dateneingabe, Hochfrequenzüberwachung – erfordert Simulangs Ausführung im Millisekundenbereich. Coworks Latenz von mehreren Sekunden pro Aktion macht es ungeeignet für zeitkritische Automatisierungen.

Kostensensible Vorgänge. Teams, die täglich Hunderte von automatisierten Workflows ausführen, können sich keine Pay-per-Execution-Preise leisten. Simulangs kostenlose Wiederholung macht die Automatisierung im großen Maßstab wirtschaftlich tragfähig.

Sensible Umgebungen. Jeder Kontext, in dem Screenshots Ihres Desktops nicht an einen Drittanbieter-Cloud-Dienst gesendet werden sollten. Regierung, Gesundheitswesen, Finanzen, Recht und jede Organisation mit strengen Anforderungen an die Datenresidenz.

Programmatische Integration. Simulang-Skripte können in CI/CD-Pipelines eingebettet, von anderen Anwendungen aufgerufen, über Cron-Jobs geplant und zu komplexen mehrstufigen Workflows zusammengestellt werden. Cowork ist auf interaktive Sitzungen in der Claude Desktop-App beschränkt.

Direkter Vergleich: Fünf reale Workflows

Workflow Claude Cowork Simulang Verdict
Fill a 15-field web form daily Works but slow (~60s). Occasional misclicks on dropdowns. Sub-second, 100% accurate. Runs unattended via cron. Simulang
Organize 50 PDFs by topic Reads file names, opens some to check. Natural language instructions. Requires scripting file-system logic. Faster execution but more setup. Cowork (ease)
Summarize a dashboard chart Sees the chart, interprets trends, writes summary. Cannot interpret visual chart content from accessibility tree alone. Cowork
Monitor a website price every hour Must run manually each time. Token cost adds up over weeks. Scheduled script runs indefinitely at zero cost. Simulang
Extract data from a legacy ERP with custom UI Screenshots work regardless of UI framework. Handles custom controls. Depends on accessibility API support. Some legacy apps lack it. Cowork

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai

FAQs

})