])

Seu agente de codificação pode escrever código. Mas ele consegue registrar um relatório de despesas? Abrir um aplicativo de desktop? Preencher um formulário que exige login?
Essa é a questão que impulsiona a mais nova categoria de ferramentas de IA: agentes de uso de computador. O Codex da OpenAI agora inclui um recurso de Uso de Computador que permite ao agente ver sua tela e interagir com aplicativos por meio de capturas de tela e cliques do mouse. O Simulang da Simular adota uma abordagem fundamentalmente diferente — ele lê a árvore de acessibilidade do sistema operacional e escreve scripts determinísticos que são reproduzidos sem um LLM no processo.
Testei ambos no mesmo conjunto de tarefas de automação de desktop. Aqui está o que encontrei — e quando você deve escolher um em vez do outro.

Codex é o agente de IA da OpenAI plataforma. Lançado originalmente como um modelo de geração de código em 2021, o Codex evoluiu para um agente completo que pode escrever código, executar comandos de terminal, navegar na web e — a partir de sua última atualização — controlar aplicativos de desktop por meio de um recurso de Uso de Computador.
A capacidade de Uso de Computador funciona tirando capturas de tela da tela do usuário, enviando-as para um modelo de visão e retornando ações de mouse/teclado. O agente vê o que você vê — uma grade de pixels — e decide onde clicar, o que digitar e quando rolar.
O Codex é executado em um sandbox na nuvem por padrão. O recurso de Uso de Computador estende isso para desktops locais por meio de uma arquitetura de plugin.

Simulang é uma linguagem de script para automatizar navegadores, aplicativos nativos e fluxos de trabalho de nível de sistema operacional. É de código aberto, instala com
npm install -g @simular-ai/simulange produz scripts TypeScript que interagem com aplicativos por meio das APIs de acessibilidade do sistema operacional. O Simulang é produzido e apoiado por Simular.
Em vez de olhar para capturas de tela, o Simulang lê a árvore de acessibilidade — a mesma interface estruturada que leitores de tela como VoiceOver e JAWS usam. Cada botão, campo de texto, item de menu e rótulo é exposto como um elemento nomeado e endereçável por referência. O script interage por referência, não por coordenada de pixel.
O Simulang é projetado ser o formato de saída dos agentes de codificação. Claude Code, Cursor, ou qualquer ferramenta de codificação alimentada por LLM pode escrever um script Simulang uma vez, e esse script é reproduzido de forma determinística — nenhum LLM é necessário em tempo de execução.
Esta é a principal diferença arquitetural, e afeta tudo o que vem a seguir.
Uso do Computador pelo Codex tira uma captura de tela (tipicamente 1920x1080 pixels), envia-a para um modelo de visão, e pergunta: "Onde está o botão Enviar?" O modelo retorna as coordenadas. Codex move o mouse para essas coordenadas e clica.
Esta abordagem tem três problemas:
Simulang lê a árvore de acessibilidade e atribui um ID de referência estável a cada elemento. O script diz tree.activate("ref_42") — não "clicar no pixel (847, 312)." Se a janela se mover, a referência ainda é válida. Se a escala do SO mudar, a referência ainda é válida. Se uma caixa de diálogo aparecer, o Simulang lê a nova árvore e encontra o elemento pela sua identidade semântica.
Tempo de resposta por ação: milissegundos. Um fluxo de trabalho de 10 etapas é concluído em menos de um segundo.
Essa diferença determina tanto o custo quanto a confiabilidade.

Uso do Computador Codex exige uma chamada LLM para cada interação. Abrir um menu: chamada LLM. Clicar num botão: chamada LLM. Digitar num campo: chamada LLM. Cada chamada custa tokens, adiciona latência e introduz uma chance de má interpretação. Execute o mesmo fluxo de trabalho 100 vezes, e você paga por 100 x N chamadas LLM (onde N é o número de passos).
Simulang usa o LLM exatamente uma vez — no momento da autoria do script. O agente de codificação (Claude Code, Cursor, etc.) escreve o script Simulang, e a partir desse ponto, o script é executado de forma determinística. Execute-o 100 vezes, e você paga por 0 chamadas LLM adicionais.
A diferença de custo não é marginal. Para um fluxo de trabalho diário de 20 passos, executado 5 dias por semana:

Ambas as ferramentas podem interagir com qualquer aplicativo que aparece na tela — mas o mecanismo difere.
Codex é agnóstico a aplicativos por design: se for visível como pixels, o Codex pode tentar interagir com ele. Isso é genuinamente útil para aplicativos que não possuem API, suporte de acessibilidade e ganchos de automação. Software empresarial legado, telas renderizadas personalizadas e sessões de desktop remoto são todos válidos.
Simulang lida com navegadores nativamente (através de APIs de acessibilidade estilo Playwright) e se estende a qualquer aplicativo nativo que exponha dados de acessibilidade — o que inclui praticamente todos os aplicativos padrão macOS, Windows e Linux. Para o aplicativo raro que não expõe dados de acessibilidade, o Simulang recorre ao reconhecimento visual: ele tira uma captura de tela e usa um modelo de visão para localizar o elemento alvo.
A diferença prática: o Simulang usa o caminho rápido e determinístico (árvore de acessibilidade) para 95% das interações e o caminho lento e probabilístico (visão) para os 5% restantes. O Codex usa o caminho lento e probabilístico para 100% das interações.
Codex opera em uma VM na nuvem por padrão. Seu código, seus arquivos e suas credenciais são carregados para a infraestrutura da OpenAI. O plugin Computer Use estende o Codex para desktops locais, mas a arquitetura central é "cloud-first".
Simulang é executado inteiramente na sua máquina local. Os scripts são executados no seu desktop real — suas sessões de navegador, seus aplicativos logados, seu sistema de arquivos. Nada é carregado. Nada sai da sua máquina, a menos que o script envie dados explicitamente para algum lugar.
Para empresas com requisitos de conformidade (SOC 2, HIPAA, regulamentações financeiras), a execução local é frequentemente inegociável. Para desenvolvedores individuais que desejam automatizar fluxos de trabalho envolvendo sessões autenticadas (e-mail, banco, ferramentas internas), a execução local significa que não há compartilhamento de credenciais.
A imparcialidade importa. Aqui é onde o Codex tem vantagens reais:
Para a maioria dos desenvolvedores que criam fluxos de trabalho de automação de produção, o Simulang é a escolha mais prática: escreva o script uma vez, execute-o para sempre, não pague nada por execução. Para tarefas de desktop ad hoc onde você quer apontar uma IA para sua tela e dizer "faça isso", o Uso de Computador Codex é mais rápido para começar.
As duas ferramentas não são mutuamente exclusivas. Você pode usar o Codex (ou Claude Code, ou Cursor) para escrever scripts Simulang — obtendo o melhor dos dois mundos: inteligência LLM no momento da autoria, execução determinística em tempo de execução.