])

Anthropic hat Claude Cowork eingeführt – eine Funktion, die es Claude ermöglicht, Ihren Mac- oder Windows-Desktop mittels Screenshots und Mausklicks zu steuern. Es kann Apps öffnen, Formulare ausfüllen und Menüs navigieren, während Sie zusehen. Es fühlt sich an wie Magie, wenn man es zum ersten Mal sieht.
Dann sehen Sie, wie es den falschen Knopf anklickt, weil zwei Symbole ähnlich aussahen. Oder Sie warten 4 Sekunden zwischen jeder Aktion, während das Vision-Modell einen weiteren Screenshot verarbeitet. Oder Sie fragen sich, was mit Ihren Bankdaten passiert, wenn Screenshots zur Interpretation an die Server von Anthropic gesendet werden.
Simulang löst alle drei Probleme. Es liest den Barrierefreiheitsbaum anstelle von Screenshots, führt in Millisekunden statt in Sekunden aus und läuft vollständig auf Ihrem lokalen Rechner. Aber Cowork hat auch Vorteile – insbesondere für nicht-technische Benutzer, die auf ihren Bildschirm zeigen und sagen wollen: „Mach das.“
Ich habe beide mit denselben Desktop-Workflows getestet. Hier ist der ehrliche Vergleich.

Claude Cowork ist eine Funktion von Anthropic zur Computernutzung, verfügbar in der Claude Desktop-App. Es ermöglicht Claude, Ihren Bildschirm mittels Screenshots zu sehen, Ihre Maus zu bewegen, Elemente anzuklicken und Text einzugeben – und so Ihren Desktop effektiv so zu steuern, wie es ein Mensch tun würde.
Der Interaktionszyklus funktioniert so: Cowork macht einen Screenshot, sendet ihn an Claudes Vision-Modell, identifiziert UI-Elemente anhand von Pixeln, entscheidet, welche Aktion auszuführen ist, führt sie aus, macht einen weiteren Screenshot zur Überprüfung und wiederholt den Vorgang. Jede einzelne Aktion durchläuft diesen Screenshot-Begründung-Aktions-Zyklus.
Cowork entstand, als nicht-technische Teams bei Anthropic begannen, die Chat-Oberfläche zu umgehen, um Claude Code für Wissensarbeitsaufgaben zu nutzen. Anthropic entwickelte Cowork als vereinfachte Version derselben Computernutzungsfunktion und richtet sich an Forscher, Analysten, Operations-Teams und alle, die täglich mit Dokumenten und Daten arbeiten.
Preise: Claude Pro (20 $/Monat), Team (30 $/Monat pro Platz) und Enterprise-Pläne. Jede Aktion verbraucht API-Tokens über die Screenshot-Verarbeitungspipeline.

Simulang ist eine Open-Source-JavaScript-Bibliothek, die Desktop-Anwendungen automatisiert, indem sie den Barrierefreiheitsbaum des Betriebssystems liest – dieselben strukturierten Daten, die auch Screenreader verwenden. Anstatt Pixel zu betrachten, versteht Simulang die Rolle jedes UI-Elements (Schaltfläche, Textfeld, Menüpunkt), seinen Namen, seinen Zustand und seine genaue Position.
Sie schreiben Automatisierungsskripte in JavaScript. Diese Skripte interagieren mit jeder Desktop-Anwendung – Browsern, Tabellenkalkulationen, E-Mail-Clients, Terminals – durch präzise Elementreferenzen statt durch Koordinatenraten. Einmal geschrieben, werden Skripte sofort wiedergegeben, ohne API-Tokens zu verbrauchen.
Simulang ermöglicht Sai, der KI-Agent, der es als Ausführungsebene nutzt. Wenn Sai einen Workflow automatisiert, verwendet es den zugrunde liegenden Zugänglichkeitsbaum von Simulang.
Preise: Simulang ist kostenlos und Open Source. Sai (der auf Simulang basierende KI-Agent) bietet eine kostenlose Stufe und kostenpflichtige Pläne ab 20 $/Monat.
Cowork erfasst Ihren gesamten Bildschirm als Bild, skaliert es herunter, damit es in Claudes Kontextfenster passt, und sendet es an Anthropic-Server. Das Vision-Modell interpretiert den Screenshot, um Schaltflächen, Menüs, Textfelder und andere Elemente basierend auf ihrem Aussehen zu identifizieren. Anschließend gibt es Mauskoodinaten für den Klickpunkt zurück.
Dieser Ansatz hat eine inhärente Genauigkeitsgrenze. Kleine UI-Elemente, kontrastarmer Text und ähnlich aussehende Symbole können das Vision-Modell verwirren. Ein Dropdown-Menü mit 20 Einträgen sieht für ein Vision-Modell anders aus als für einen Menschen, der jede Zeile lesen kann. Wenn Cowork falsch klickt, macht es einen weiteren Screenshot, erkennt den Fehler und versucht, sich zu erholen – was mehr Zeit und Token-Verbrauch bedeutet.

Simulang fragt die Barrierefreiheits-API des Betriebssystems ab (UI Automation unter Windows, AXTree unter macOS). Dies gibt einen strukturierten Baum jedes UI-Elements auf dem Bildschirm zurück, einschließlich Elementen, die technisch außerhalb des Bildschirms liegen oder hinter anderen Fenstern verborgen sind. Jedes Element enthält seine Rolle, seinen Namen, seinen Wert und seinen Zustand – keine Interpretation erforderlich.
Das Klicken auf eine Schaltfläche bedeutet, sie über ihren Zugänglichkeits-Identifikator zu referenzieren, nicht zu erraten, wo sie sich auf dem Bildschirm befindet. Es gibt keine Mehrdeutigkeit. Eine Schaltfläche namens „Senden“ ist immer „Senden“, unabhängig von Bildschirmauflösung, Schriftgröße, Dunkelmodus oder Fensterposition.
Jede Claude Cowork-Aktion folgt dieser Pipeline:
Gesamt pro Aktion: 3 bis 5 Sekunden.
Simulangs Pipeline:
Gesamt pro Aktion: unter 50 Millisekunden.
Ein 10-Schritte-Workflow benötigt mit Cowork 30 bis 50 Sekunden. Simulang ist in weniger als einer Sekunde fertig. Bei einer 20-schrittigen Formularausfüllaufgabe sehen Sie Cowork fast zwei Minuten lang arbeiten, während Simulang diese erledigt, bevor Sie diesen Satz zu Ende gelesen haben.
Dies ist kein geringfügiger Unterschied. Es ist ein 100-facher Geschwindigkeitsunterschied, der sich mit jedem Schritt potenziert.
Die Genauigkeit von Claude Cowork hängt vollständig davon ab, wie gut das Vision-Modell jeden Screenshot interpretiert. Anthropic hat dies seit der ursprünglichen Computer Use-Vorschau erheblich verbessert, aber bestimmte Szenarien verursachen immer wieder Probleme:
Simulang hat diese Probleme nicht. Es liest Element-Metadaten direkt vom Betriebssystem. Ein Button ist ein Button, mit einem Namen und einer Position, unabhängig davon, wie er auf dem Bildschirm dargestellt wird. Die Genauigkeit beträgt effektiv 100 % für jedes Element, das im Barrierefreiheitsbaum existiert.
Einschränkung: Einige Anwendungen weisen eine schlechte Barrierefreiheitsimplementierung auf. Spiele, benutzerdefinierte gerenderte Canvas-Elemente und einige Electron-Apps legen möglicherweise nicht alle Elemente über die Barrierefreiheits-API offen. Für diese Fälle bietet Simulang eine visuell basierte Verankerung als Fallback – der primäre Interaktionspfad ist jedoch immer der strukturierte Baum.
Claude Cowork verbraucht bei jeder Ausführung Tokens. Jeder Screenshot umfasst etwa 1.500 bis 3.000 Tokens (abhängig von der Auflösung), zuzüglich der Reasoning-Tokens für jede Entscheidung. Ein Workflow mit 20 Schritten könnte pro Durchlauf 40.000 bis 80.000 Tokens verbrauchen.
Führen Sie diesen Workflow 10 Mal pro Tag, 20 Tage pro Monat aus, und Sie verbrauchen monatlich Millionen von Tokens – selbst mit einem Pro-Plan werden Sie den Verbrauch bemerken.
Simulang-Skripte können kostenlos wiederholt werden. Sie schreiben die Automatisierung einmal, und sie läuft für immer ohne Grenzkosten. Keine API-Aufrufe, kein Token-Verbrauch, keine Nutzungslimits. Dies macht Simulang für repetitive Workflows erheblich wirtschaftlicher.
Hier wird der Unterschied für sicherheitsbewusste Teams entscheidend.
Claude Cowork sendet vollständige Screenshots Ihres Desktops zur Verarbeitung an die Server von Anthropic. Alles, was zum Zeitpunkt der Aufnahme auf Ihrem Bildschirm sichtbar ist – Passwörter, Finanzdaten, vertrauliche Dokumente, persönliche Nachrichten – wird an eine Drittanbieter-API übertragen. Es gelten die Datenaufbewahrungsrichtlinien von Anthropic.
Simulang läuft vollständig auf Ihrem lokalen Rechner. Der Barrierefreiheitsbaum wird lokal abgefragt. Aktionen werden lokal ausgeführt. Es verlassen keine Daten Ihren Computer. Wenn Sie Simulang mit einem lokalen LLM für die Reasoning-Schicht koppeln, ist die gesamte Pipeline vom Internet isoliert (air-gapped).
Für Branchen mit Compliance-Anforderungen – Gesundheitswesen (HIPAA), Finanzen (SOX), Recht (Anwaltsgeheimnis) – ist diese Unterscheidung keine Präferenz. Sie ist eine Anforderung.
Cowork bietet echte Vorteile, die Simulang nicht erreicht:
Zero-Code-Interaktion. Sie beschreiben, was Sie möchten, in einfachem Englisch, und Cowork findet heraus, wie es geht. Es gibt kein Scripting, keine Einrichtung, keine Lernkurve außer der Eingabe eines Prompts. Für einen Forscher, der 50 PDFs thematisch in Ordner sortieren muss, erledigt Cowork dies, ohne eine einzige Zeile Code schreiben zu müssen.
Visuelles Verständnis. Cowork kann Diagramme, Grafiken, Bilder und visuelle Layouts interpretieren, die der Zugänglichkeitsbaum nicht beschreibt. Wenn Sie möchten, dass Claude „dieses Dashboard ansieht und die Trends zusammenfasst“, kann Cowork das tun – Simulang kann das nicht, da der visuelle Inhalt nicht im Zugänglichkeitsbaum enthalten ist.
Konversationsbasierte Iteration. Sie können Cowork bei der Arbeit zusehen, es unterbrechen, Korrekturen geben und den Ansatz in natürlicher Sprache verfeinern. Die Interaktion fühlt sich an wie die Zusammenarbeit mit einem Kollegen, der Ihren Bildschirm sehen kann. Simulang erfordert die Änderung von Code, um das Verhalten anzupassen.
Breite Anwendungsunterstützung. Da Cowork mit Screenshots arbeitet, kann es mit jeder Anwendung interagieren, die Pixel rendert – einschließlich benutzerdefinierter interner Tools, älterer Software und Webanwendungen mit nicht-standardmäßigen UI-Frameworks. Es hängt nicht von der Implementierungsqualität der Barrierefreiheits-API ab.
Simulang bietet strukturelle Vorteile, die Cowork nicht nachbilden kann:
Produktionsreife Zuverlässigkeit. Wenn eine Automatisierung 1.000 Mal ohne einen einzigen Fehlklick ausgeführt werden muss, ist Simulangs deterministische Elementausrichtung die einzige Option. Coworks probabilistisches Visionsmodell wird bei großem Umfang irgendwann Fehler machen.
Geschwindigkeitskritische Workflows. Jeder Workflow, bei dem die Ausführungszeit entscheidend ist – CI/CD-Pipelines, Echtzeit-Dateneingabe, Hochfrequenzüberwachung – erfordert Simulangs Ausführung im Millisekundenbereich. Coworks Latenz von mehreren Sekunden pro Aktion macht es ungeeignet für zeitkritische Automatisierungen.
Kostensensible Vorgänge. Teams, die täglich Hunderte von automatisierten Workflows ausführen, können sich keine Pay-per-Execution-Preise leisten. Simulangs kostenlose Wiederholung macht die Automatisierung im großen Maßstab wirtschaftlich tragfähig.
Sensible Umgebungen. Jeder Kontext, in dem Screenshots Ihres Desktops nicht an einen Drittanbieter-Cloud-Dienst gesendet werden sollten. Regierung, Gesundheitswesen, Finanzen, Recht und jede Organisation mit strengen Anforderungen an die Datenresidenz.
Programmatische Integration. Simulang-Skripte können in CI/CD-Pipelines eingebettet, von anderen Anwendungen aufgerufen, über Cron-Jobs geplant und zu komplexen mehrstufigen Workflows zusammengestellt werden. Cowork ist auf interaktive Sitzungen in der Claude Desktop-App beschränkt.