])

A Anthropic lançou o Claude Cowork — um recurso que permite ao Claude controlar o seu desktop Mac ou Windows através de capturas de tela e cliques do mouse. Ele pode abrir aplicativos, preencher formulários e navegar por menus enquanto você assiste. Parece mágica na primeira vez que você o vê.
Depois, você o vê clicar no botão errado porque dois ícones pareciam semelhantes. Ou esperar 4 segundos entre cada ação enquanto o modelo de visão processa outra captura de tela. Ou se perguntar o que acontece com suas credenciais bancárias quando as capturas de tela são enviadas para os servidores da Anthropic para interpretação.
O Simulang resolve todos os três problemas. Ele lê a árvore de acessibilidade em vez de capturas de tela, executa em milissegundos em vez de segundos e roda inteiramente na sua máquina local. Mas o Cowork também tem vantagens — especialmente para usuários não técnicos que querem apontar para a tela e dizer "faça isso".
Testei ambos nos mesmos fluxos de trabalho de desktop. Aqui está a comparação honesta.

Claude Cowork é o recurso de uso de computador da Anthropic, disponível no aplicativo de desktop Claude. Ele dá ao Claude a capacidade de ver sua tela através de capturas de tela, mover o mouse, clicar em elementos e digitar texto — controlando efetivamente seu desktop da mesma forma que um humano faria.
O ciclo de interação funciona assim: o Cowork tira uma captura de tela, envia-a para o modelo de visão do Claude, identifica elementos da interface do usuário a partir de pixels, decide qual ação tomar, a executa, tira outra captura de tela para verificar e repete. Cada ação passa por este ciclo de captura de tela-raciocínio-ação.
O Cowork nasceu quando equipes não técnicas da Anthropic começaram a contornar a interface de chat para usar o Claude Code em tarefas de trabalho do conhecimento. A Anthropic construiu o Cowork como uma versão simplificada dessa mesma capacidade de uso de computador, visando pesquisadores, analistas, equipes de operações e qualquer pessoa que trabalhe com documentos e dados diariamente.
Preços: Planos Claude Pro (US$ 20/mês), Team (US$ 30/mês por licença) e Enterprise. Cada ação consome tokens de API através do pipeline de processamento de capturas de tela.

Simulang é uma biblioteca JavaScript de código aberto que automatiza aplicativos de desktop lendo a árvore de acessibilidade do sistema operacional — os mesmos dados estruturados que os leitores de tela usam. Em vez de olhar para pixels, O Simulang entende a função de cada elemento da interface do usuário (botão, campo de texto, item de menu), nome, estado e posição exata.
Você escreve scripts de automação em JavaScript. Esses scripts interagem com qualquer aplicativo de desktop — navegadores, planilhas, clientes de e-mail, terminais — através de referências precisas de elementos, em vez de adivinhação de coordenadas. Uma vez escritos, os scripts são reproduzidos instantaneamente sem consumir nenhum token de API.
O Simulang impulsiona Sai, o agente de IA que o utiliza como sua camada de execução. Quando o Sai automatiza um fluxo de trabalho, ele usa a árvore de acessibilidade do Simulang por baixo.
Preços: O Simulang é gratuito e de código aberto. O Sai (o agente de IA construído sobre o Simulang) oferece um plano gratuito e planos pagos a partir de US$ 20/mês.
O Cowork captura sua tela inteira como uma imagem, reduz a escala para caber na janela de contexto do Claude e a envia para os servidores da Anthropic. O modelo de visão interpreta a captura de tela para identificar botões, menus, campos de texto e outros elementos com base na sua aparência. Em seguida, ele retorna as coordenadas do mouse para onde clicar.
Essa abordagem tem um limite de precisão inerente. Pequenos elementos da interface do usuário, texto de baixo contraste e ícones de aparência semelhante podem confundir o modelo de visão. Um menu suspenso com 20 itens parece diferente para um modelo de visão do que para um humano que pode ler cada linha. Quando o Cowork clica errado, ele tira outra captura de tela, percebe o erro e tenta se recuperar — adicionando mais tempo e mais consumo de tokens.

O Simulang consulta a API de acessibilidade do sistema operacional (UI Automation no Windows, AXTree no macOS). Isso retorna uma árvore estruturada de cada elemento da interface do usuário na tela, incluindo elementos que estão tecnicamente fora da tela ou ocultos atrás de outras janelas. Cada elemento vem com sua função, nome, valor e estado — sem necessidade de interpretação.
Clicar em um botão significa referenciá-lo pelo seu identificador de acessibilidade, não adivinhar onde ele está na tela. Não há ambiguidade. Um botão chamado "Enviar" é sempre "Enviar", independentemente da resolução da tela, tamanho da fonte, modo escuro ou posição da janela.
Cada ação do Claude Cowork segue este pipeline:
Total por ação: 3 a 5 segundos.
Pipeline do Simulang:
Total por ação: menos de 50 milissegundos.
Um fluxo de trabalho de 10 etapas leva de 30 a 50 segundos para o Cowork. O Simulang termina em menos de um segundo. Em uma tarefa de preenchimento de formulário de 20 etapas, você estará assistindo o Cowork trabalhar por quase dois minutos enquanto o Simulang a completa antes que você termine de ler esta frase.
Esta não é uma diferença marginal. É uma lacuna de velocidade de 100x que se acumula a cada etapa.
A precisão do Claude Cowork depende inteiramente de quão bem o modelo de visão interpreta cada captura de tela. A Anthropic melhorou isso significativamente desde a prévia original do Computer Use, mas certos cenários consistentemente causam problemas:
O Simulang não tem esses problemas. Ele lê os metadados dos elementos diretamente do sistema operacional. Um botão é um botão, com um nome e uma posição, independentemente de como ele é renderizado na tela. A precisão é efetivamente de 100% para qualquer elemento que exista na árvore de acessibilidade.
A ressalva: algumas aplicações têm uma implementação de acessibilidade deficiente. Jogos, telas renderizadas personalizadas e algumas aplicações Electron podem não expor todos os elementos através da API de acessibilidade. Para esses casos, o Simulang oferece o reconhecimento visual como alternativa — mas o caminho de interação principal é sempre a árvore estruturada.
O Claude Cowork consome tokens a cada execução. Cada captura de tela tem aproximadamente 1.500 a 3.000 tokens (dependendo da resolução), mais os tokens de raciocínio para cada decisão. Um fluxo de trabalho de 20 etapas pode consumir de 40.000 a 80.000 tokens por execução.
Execute esse fluxo de trabalho 10 vezes por dia, 20 dias por mês, e você estará consumindo milhões de tokens mensalmente — mesmo em um plano Pro, você notará o uso.
Os scripts do Simulang não custam nada para serem reproduzidos. Você escreve a automação uma vez, e ela roda para sempre com custo marginal zero. Sem chamadas de API, sem consumo de tokens, sem limites de uso. Isso torna o Simulang dramaticamente mais econômico para fluxos de trabalho repetitivos.
É aqui que a diferença se torna crítica para equipes preocupadas com segurança.
O Claude Cowork envia capturas de tela completas do seu desktop para os servidores da Anthropic para processamento. Tudo o que está visível na sua tela no momento da captura — senhas, dados financeiros, documentos confidenciais, mensagens pessoais — é transmitido para uma API de terceiros. As políticas de retenção de dados da Anthropic se aplicam.
O Simulang é executado inteiramente na sua máquina local. A árvore de acessibilidade é consultada localmente. As ações são executadas localmente. Nenhum dado sai do seu computador. Se você combinar o Simulang com um LLM local para a camada de raciocínio, todo o pipeline fica isolado da internet.
Para indústrias com requisitos de conformidade — saúde (HIPAA), finanças (SOX), jurídico (sigilo advogado-cliente) — esta distinção não é uma preferência. É um requisito.
O Cowork tem vantagens genuínas que o Simulang não iguala:
Interação sem código. Você descreve o que deseja em português simples, e o Cowork descobre como fazer. Não há scripts, nem configuração, nem curva de aprendizado além de digitar um prompt. Para um pesquisador que precisa organizar 50 PDFs em pastas por tópico, o Cowork resolve isso sem escrever uma única linha de código.
Compreensão visual. O Cowork consegue interpretar gráficos, imagens e layouts visuais que a árvore de acessibilidade não descreve. Se precisar que o Claude "olhe para este painel e resuma as tendências", o Cowork consegue fazer isso — o Simulang não, porque o conteúdo visual não está na árvore de acessibilidade.
Iteração conversacional. Pode observar o Cowork a trabalhar, interrompê-lo, dar correções e refinar a abordagem em linguagem natural. A interação parece um trabalho em dupla com um colega que consegue ver a sua tela. O Simulang exige que modifique o código para alterar o comportamento.
Amplo suporte a aplicativos. Como o Cowork funciona a partir de capturas de tela, ele pode interagir com qualquer aplicativo que renderize pixels — incluindo ferramentas internas personalizadas, software legado e aplicativos web com frameworks de UI não padronizados. Não depende da qualidade da implementação da API de acessibilidade.
O Simulang tem vantagens estruturais que o Cowork não consegue replicar:
Confiabilidade de nível de produção. Quando precisa que uma automação seja executada 1.000 vezes sem um único clique errado, a segmentação determinística de elementos do Simulang é a única opção. O modelo de visão probabilístico do Cowork acabará por cometer erros em escala.
Fluxos de trabalho críticos para a velocidade. Qualquer fluxo de trabalho onde o tempo de execução é importante — pipelines de CI/CD, entrada de dados em tempo real, monitoramento de alta frequência — requer a execução em milissegundos do Simulang. A latência de vários segundos por ação do Cowork torna-o inadequado para automações sensíveis ao tempo.
Operações sensíveis ao custo. Equipes que executam centenas de fluxos de trabalho automatizados diariamente não podem pagar preços por execução. A repetição de custo zero do Simulang torna a automação economicamente viável em escala.
Ambientes sensíveis. Qualquer contexto onde capturas de tela do seu desktop não devem ser enviadas para um serviço de nuvem de terceiros. Governo, saúde, finanças, jurídico e qualquer organização com requisitos rigorosos de residência de dados.
Integração programática. Os scripts do Simulang podem ser incorporados em pipelines de CI/CD, chamados a partir de outros aplicativos, agendados via cron jobs e compostos em fluxos de trabalho complexos de várias etapas. O Cowork está limitado a sessões interativas no aplicativo de desktop Claude.