Codex vs Simulang : Quel agent IA contrôle réellement mieux votre ordinateur

Votre agent de codage peut écrire du code. Mais peut-il déposer une note de frais ? Ouvrir une application de bureau ? Remplir un formulaire qui se trouve derrière un mur de connexion ?

C'est la question qui anime la toute nouvelle catégorie d'outils d'IA : les agents d'utilisation d'ordinateur. Le Codex d'OpenAI inclut désormais une fonctionnalité d'utilisation de l'ordinateur qui permet à l'agent de voir votre écran et d'interagir avec les applications via des captures d'écran et des clics de souris. Le Simulang de Simular adopte une approche fondamentalement différente : il lit l'arbre d'accessibilité du système d'exploitation et écrit des scripts déterministes qui se rejouent sans LLM dans la boucle.

J'ai testé les deux sur le même ensemble de tâches d'automatisation de bureau. Voici ce que j'ai trouvé — et quand choisir l'un plutôt que l'autre.

‍

Qu'est-ce que Codex ?

Codex est l'agent IA d'OpenAI plateforme. Lancé à l'origine comme un modèle de génération de code en 2021, Codex a évolué pour devenir un agent complet capable d'écrire du code, d'exécuter des commandes de terminal, de naviguer sur le web et — depuis sa dernière mise à jour — de contrôler les applications de bureau grâce à une fonctionnalité d'utilisation de l'ordinateur.

La capacité d'utilisation de l'ordinateur fonctionne en prenant des captures d'écran de l'écran de l'utilisateur, en les envoyant à un modèle de vision et en renvoyant des actions de souris/clavier. L'agent voit ce que vous voyez — une grille de pixels — et décide où cliquer, quoi taper et quand faire défiler.

Codex fonctionne par défaut dans un bac à sable cloud. La fonctionnalité d'utilisation de l'ordinateur étend cela aux ordinateurs de bureau locaux via une architecture de plugins.

‍

Qu'est-ce que Simulang ?

Simulang est un langage de script pour automatiser les navigateurs, les applications natives et les flux de travail au niveau du système d'exploitation. Il est open source, s'installe avec

‍npm install -g @simular-ai/simulang

et produit des scripts TypeScript qui interagissent avec les applications via les API d'accessibilité du système d'exploitation. Simulang est produit et soutenu par Simular.

Au lieu de regarder des captures d'écran, Simulang lit l'arbre d'accessibilité — la même interface structurée qu'utilisent les lecteurs d'écran comme VoiceOver et JAWS. Chaque bouton, champ de texte, élément de menu et étiquette est exposé comme un élément nommé et adressable par référence. Le script interagit par référence, et non par coordonnées de pixels.

Simulang est conçu être le format de sortie des agents de codage. Claude Code, Cursor, ou tout outil de codage basé sur un LLM peut écrire un script Simulang une seule fois, et ce script se rejoue de manière déterministe — aucun LLM n'est requis à l'exécution.

‍

How we evaluated

Simulang lit le plan ; Codex regarde des photos

C'est la principale différence architecturale, et cela affecte tout ce qui en découle.

Utilisation de Codex sur ordinateur prend une capture d'écran (généralement 1920x1080 pixels), l'envoie à un modèle de vision, et demande : « Où est le bouton Envoyer ? » Le modèle renvoie des coordonnées. Codex déplace la souris vers ces coordonnées et clique.

Cette approche présente trois problèmes :

Dépendance à la résolution: Si la fenêtre est redimensionnée, les coordonnées changent. Si la mise à l'échelle du système d'exploitation change, les coordonnées changent. Si une boîte de dialogue apparaît et décale la mise en page, les coordonnées sont incorrectes.
Ambigüité: Deux boutons qui semblent identiques mais servent des objectifs différents (par exemple, deux boutons « Enregistrer » dans des boîtes de dialogue imbriquées) sont impossibles à distinguer à partir des seuls pixels.
Vitesse: Chaque action nécessite une capture d'écran complète, une inférence de modèle de vision (500 ms-2 s) et une réponse. Un flux de travail en 10 étapes prend 10 à 20 secondes de temps d'inférence pur.

Simulang lit l'arbre d'accessibilité et attribue un ID de référence stable à chaque élément. Le script indique tree.activate("ref_42") — et non « cliquer au pixel (847, 312) ». Si la fenêtre se déplace, la référence est toujours valide. Si la mise à l'échelle du système d'exploitation change, la référence est toujours valide. Si une boîte de dialogue apparaît, Simulang lit le nouvel arbre et trouve l'élément par son identité sémantique.

Temps de réponse par action : millisecondes. Un flux de travail en 10 étapes s'achève en moins d'une seconde.

‍

Les scripts Simulang s'exécutent sans LLM ; Codex en a besoin pour chaque action

Cette différence détermine à la fois le coût et la fiabilité.

Utilisation de l'ordinateur Codex nécessite un appel LLM pour chaque interaction. Ouvrir un menu : appel LLM. Cliquer sur un bouton : appel LLM. Saisir du texte dans un champ : appel LLM. Chaque appel coûte des jetons, ajoute de la latence et introduit un risque de mauvaise interprétation. Exécutez le même flux de travail 100 fois, et vous payez pour 100 x N appels LLM (où N est le nombre d'étapes).

Simulang utilise le LLM une seule fois — au moment de la création du script. L'agent de codage (Claude Code, Cursor, etc.) écrit le script Simulang, et à partir de ce moment, le script s'exécute de manière déterministe. Exécutez-le 100 fois, et vous ne payez pour aucun appel LLM supplémentaire.

La différence de coût n'est pas marginale. Pour un flux de travail quotidien en 20 étapes, exécuté 5 jours par semaine :

Codex: 20 étapes x 5 jours x 4 semaines = 400 appels LLM/mois. À environ 0,01-0,03 $ par appel (tarification du modèle de vision), cela représente 4-12 $/mois pour une seule automatisation.
Simulang: 1 appel LLM pour écrire le script + 0 $ pour l'exécuter. Total : 0,03-0,10 $, une seule fois.

‍

Simulang contrôle les navigateurs ET les applications natives ; l'utilisation de l'ordinateur Codex fonctionne via des captures d'écran de n'importe quoi

Les deux outils peuvent interagir avec n'importe quelle application qui apparaît à l'écran — mais le mécanisme diffère.

Codex est agnostique aux applications par conception : si c'est visible sous forme de pixels, Codex peut essayer d'interagir avec. C'est vraiment utile pour les applications qui n'ont pas d'API, pas de support d'accessibilité et pas de points d'accroche d'automatisation. Les logiciels d'entreprise hérités, les canevas rendus sur mesure et les sessions de bureau à distance sont tous des cibles potentielles.

Simulang gère les navigateurs nativement (via des API d'accessibilité de type Playwright) et s'étend à toute application native qui expose des données d'accessibilité — ce qui inclut pratiquement toutes les applications standard macOS, Windows et Linux. Pour les rares applications qui n'exposent pas de données d'accessibilité, Simulang se rabat sur l'ancrage visuel : il prend une capture d'écran et utilise un modèle de vision pour localiser l'élément cible.

La différence pratique : Simulang utilise le chemin rapide et déterministe (arbre d'accessibilité) pour 95 % des interactions et le chemin lent et probabiliste (vision) pour les 5 % restants. Codex utilise le chemin lent et probabiliste pour 100 % des interactions.

‍

Codex s'exécute dans un bac à sable cloud ; Simulang s'exécute sur votre machine

Codex fonctionne par défaut dans une VM cloud. Votre code, vos fichiers et vos identifiants sont téléchargés vers l'infrastructure d'OpenAI. Le plugin Computer Use étend Codex aux ordinateurs de bureau locaux, mais l'architecture de base est axée sur le cloud.

Simulang s'exécute entièrement sur votre machine locale. Les scripts s'exécutent sur votre bureau réel — vos sessions de navigateur, vos applications connectées, votre système de fichiers. Rien n'est téléchargé. Rien ne quitte votre machine à moins que le script n'envoie explicitement des données quelque part.

Pour les entreprises soumises à des exigences de conformité (SOC 2, HIPAA, réglementations financières), l'exécution locale est souvent non négociable. Pour les développeurs individuels qui souhaitent automatiser des flux de travail impliquant des sessions authentifiées (e-mail, services bancaires, outils internes), l'exécution locale signifie aucun partage d'identifiants.

‍

Comparison Summary

Dimension	Codex Computer Use	Simulang
Best for	Non-technical users wanting natural language desktop control	Developers building repeatable, production-grade automations
How it works	Screenshots + vision model per action	Accessibility tree + deterministic scripts
Perception	Pixel-level (screenshots)	Semantic (accessibility tree) + vision fallback
Speed per action	2-4 seconds (LLM inference)	~50 milliseconds (local tree read)
LLM at runtime	Required for every action	Not required (scripts replay deterministically)
Scope	Anything visible as pixels	Browsers + native apps + system dialogs
Execution	Cloud sandbox (with local plugin option)	Local machine only
Data privacy	Screenshots sent to OpenAI servers	Everything runs locally, nothing uploaded
Cost per run	$0.01-0.03 per action (token costs)	$0 (after initial script authoring)
Pricing	ChatGPT Pro $200/month or API pay-per-use	Free and open source
Open source	Partially (Codex CLI is open source)	Yes (fully open source)

Où Codex Computer Use est réellement meilleur

L'équité compte. Voici où Codex présente de réels avantages :

Zéro configuration pour les utilisateurs non techniques: L'approche par capture d'écran de Codex ne nécessite aucune compréhension des arbres d'accessibilité, des références ou du scripting. Vous décrivez ce que vous voulez en langage naturel, et l'agent tente de le faire. Simulang nécessite d'écrire (ou de générer) un script.
Fonctionne sur les bureaux à distance et les VM: Codex peut contrôler une session de bureau à distance qui apparaît sous forme de pixels sur votre écran. Simulang nécessite un accès local au niveau du système d'exploitation aux API d'accessibilité, que les protocoles de bureau à distance n'exposent généralement pas.
Environnement de codage intégré: Codex est un agent de codage complet avec accès au terminal, édition de fichiers et exécution de code. Simulang est un framework d'automatisation de bureau — il n'écrit pas le code de votre application.
Indépendant de l'application: S'il s'affiche sous forme de pixels, Codex peut tenter d'interagir avec lui — y compris les logiciels d'entreprise hérités, les canevas rendus sur mesure et les applications propriétaires sans aucun support d'accessibilité.

‍

Où Simulang est réellement meilleur

Vitesse: Chaque action Simulang prend environ 50 millisecondes (lecture de l'arbre d'accessibilité). Chaque action Codex prend 2 à 4 secondes (capture d'écran + inférence du modèle de vision). Un flux de travail en 15 étapes sur Simulang se termine en moins d'une seconde ; sur Codex, le même flux de travail prend 30 à 60 secondes.
Fiabilité: Simulang interagit par référence sémantique, et non par coordonnées de pixels. Si une fenêtre est redimensionnée, qu'une boîte de dialogue apparaît ou que la mise à l'échelle du système d'exploitation change, la référence reste valide. Les coordonnées de Codex sont rompues à chaque modification de la mise en page.
Coût à l'échelle: Les scripts Simulang ne coûtent rien par exécution après la création initiale. Codex nécessite un appel LLM pour chaque action à chaque exécution — un flux de travail quotidien en 20 étapes coûte 4 à 12 $/mois avec Codex, et 0,05 $ une seule fois avec Simulang.
Confidentialité et conformité: Simulang s'exécute entièrement sur votre machine locale. Aucune capture d'écran ne quitte votre ordinateur. Aucun identifiant n'est partagé. Codex envoie des captures d'écran au cloud d'OpenAI pour le traitement par le modèle de vision.
Multiplateforme: Simulang prend en charge macOS, Windows et Linux aujourd'hui. La prise en charge de l'utilisation de l'ordinateur par Codex varie selon la plateforme et la disponibilité des plugins.
Contrôle des applications natives: Simulang pilote les navigateurs ET les applications de bureau natives (Excel, Slack, Finder, clients de messagerie, boîtes de dialogue système) via la même API d'accessibilité. Codex traite tout comme des pixels — fonctionnel, mais sans compréhension sémantique de ce sur quoi il clique.
Relecture déterministe: Un script Simulang écrit aujourd'hui s'exécute de manière identique demain, la semaine prochaine et le mois prochain, sans aucune implication de LLM. Codex doit réinterpréter l'écran à chaque exécution, introduisant une variabilité à chaque passage.

‍

Tarification

Codex

Fait partie de ChatGPT Pro (200 $/mois) ou disponible via l'API OpenAI
Les actions d'utilisation de l'ordinateur consomment des jetons aux tarifs du modèle de vision
Calcul en bac à sable dans le cloud inclus dans l'abonnement

Simulang

Open source, gratuit à installer et à utiliser
Aucun coût par action — les scripts s'exécutent localement sans appels LLM
Le coût LLM n'est engagé qu'au moment de la création du script (en utilisant votre propre abonnement Claude Code, Cursor ou Copilot)

‍

Codex vs Simulang : Lequel choisir ?

Choisissez Codex si :

Vous voulez un agent de codage IA polyvalent qui peut également contrôler votre bureau
Vous préférez les instructions en langage naturel plutôt que le scripting
Vous avez besoin d'automatiser des sessions de bureau à distance ou des machines virtuelles (VM)
Vous êtes déjà dans l'écosystème OpenAI/ChatGPT

Choisissez Simulang si :

Vous avez besoin d'une automatisation de bureau déterministe et reproductible qui s'exécute sans coûts LLM continus
Vous voulez automatiser des flux de travail à travers les navigateurs ET les applications de bureau natives
Vous vous souciez de la vitesse — temps de réponse en millisecondes contre secondes par action
Vous avez besoin d'une exécution locale pour la conformité ou la sécurité des identifiants
Vous voulez que votre agent de codage (Claude Code, Cursor) écrive des scripts d'automatisation qu'il peut remettre

Pour la plupart des développeurs qui créent des flux de travail d'automatisation de production, Simulang est le choix le plus pratique : écrivez le script une fois, exécutez-le indéfiniment, ne payez rien par exécution. Pour les tâches de bureau ad hoc où vous voulez pointer une IA sur votre écran et dire "fais ceci", Codex Computer Use est plus rapide à prendre en main.

Les deux outils ne sont pas mutuellement exclusifs. Vous pouvez utiliser Codex (ou Claude Code, ou Cursor) pour écrire des scripts Simulang — obtenant le meilleur des deux mondes : intelligence LLM au moment de la création, exécution déterministe au moment de l'exécution.

‍

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai