O caso dos agentes de GUI
de Ang Li • Palo Alto, Califórnia • 23 de abril de 2026

Uma pergunta que eu continuo recebendo:
“Se já podemos resolver 80% das tarefas importantes por meio de agentes de codificação, por que continuar investindo em GUI?”
Neste ensaio, argumento que é como dizer que os humanos não precisam mais das mãos porque podem falar. Sempre haverá tarefas que exigirão a destreza que a voz sozinha não consegue realizar.
Também escrevo sobre por que os agentes de GUI são essenciais para a AGI, por que são bons para um ecossistema diversificado de IA e se a IA significa que os humanos trabalham mais — ou menos.
Meu dia com um agente de uso de computador
Recentemente, notei que meu tempo no computador havia sido reduzido significativamente para cerca de duas horas por dia. Há um ano, eu tinha facilmente oito anos. A diferença é que os agentes de uso do computador (CUA) estão ficando muito melhores à medida que a indústria finalmente cria agentes que podem ver e agir como humanos.
Meu dia típico como CEO de uma startup de tecnologia da Série A agora é assim. Logo pela manhã, mando uma mensagem para Sai, agente de IA da Simular, e peço que ela publique postagens interessantes no X e no LinkedIn. Em seguida, peço que verifique meus e-mails, sinalize e responda aos urgentes; às vezes nem consigo dizer se o e-mail foi escrito por mim ou pelo agente, que captou meu temperamento e minha voz. Se eu precisar escrever código, pego meu telefone e instruo Sai a falar com o Cursor em vez de realmente codificar sozinho. À tarde, costumo receber ligações consecutivas do Zoom, então peço ao agente que se inscreva primeiro e avise às pessoas se eu estiver atrasado.
Sai ainda não consegue fazer todo o meu trabalho de desktop de forma autônoma, e ainda estamos a uma certa distância de alcançar a AGI. Agentes de codificação como Claude Code e Cursor lidam com aproximadamente 80% das tarefas mais comuns, previsíveis e acessíveis por API. Mas eles não conseguem resolver o resto porque, fundamentalmente, não estão equipados com capacidades perceptivas semelhantes às humanas. Eles fornecem resultados por meio de cadeias de chamadas de API. Os humanos, por outro lado, podem navegar livremente por qualquer interface, ignorando sistemas que não oferecem acesso à API.
O Sai foi projetado para operar no nível da inteligência da interface gráfica do usuário (GUI), lidando com a longa cauda de tarefas digitais que não podem ser realizadas por meio de uma linha de comando: clicar, digitar e navegar pelos aplicativos no nível do desktop. Um exemplo típico é interagir com sites que não expõem APIs, seja porque as empresas construíram paredes de dados ou porque o software legado é totalmente anterior à era do SaaS. Um agente baseado em GUI vê e opera a tela da mesma forma que um humano. Na prática, a abordagem mais eficaz combina as duas coisas: use o terminal para obter eficiência quando possível, recorra à GUI quando uma tarefa exigir.
Por que a GUI não vai embora
Você pode perguntar:
Se já podemos resolver 80% das tarefas importantes com agentes de codificação, por que continuar investindo em GUI? Esses casos de uso não diminuirão à medida que as interfaces de software ficarem mais finas — reduzidas a um campo de texto, a um comando enviado a um data center e a um resultado entregue?
É como dizer que os humanos não precisam mais das mãos porque podem falar. Sempre haverá tarefas que exigirão a destreza que a voz sozinha não consegue realizar. Há muitas maneiras de os humanos interagirem com o mundo exterior, e a fala é apenas uma delas. Enquanto o software precisar interagir com humanos, a GUI existirá. Comandos puramente baseados em texto não são suficientes, porque a linguagem é inerentemente ambígua — a mesma palavra pode transmitir significados diferentes dependendo do contexto. E à medida que se torna cada vez mais fácil criar aplicativos, as GUIs proliferarão. As tarefas digitais de cauda longa não diminuirão; na verdade, elas tendem a concentrar o trabalho de maior valor.Text-based commands might be sufficient but people really need very long text to describe the meaning/concept like lawyers do. Text is easy to be ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.
And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.That's like saying humans no longer need hands because they can speak. There will always be tasks requiring the dexterity that voice alone can't accomplish. There are many ways for humans to interact with the outside world, and speech is just one of them. So long as software needs to interact with humans, GUI will exist. Purely text-based commands aren't sufficient, because language is inherently ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.
Há também uma dimensão estratégica. Confiar exclusivamente no acesso à API significa seguir as regras dos operadores históricos que passaram anos construindo jardins murados. Um agente de GUI que vê e age como um humano pode contornar essas paredes, se não derrubá-las completamente.
A recente empolgação com ferramentas de uso de computadores, como o OpenClaw, não é que elas funcionem bem — elas ainda são incertas, repletas de casos extremos e questões de segurança. Mas dá uma ideia do futuro dos computadores autônomos, onde o papel do hardware diminui e tudo o que você precisa é de uma forma de se comunicar com o agente, como faria com um colega. Quando os agentes de GUI atingirem sua função de próxima etapa de capacidade, se os agentes de GUI se tornarem acessíveis aos consumidores comuns, poderemos ver outro nível explosivo de adoção do ChatGPT, que supera o burburinho em torno dos agentes de codificação atualmente.
O que isso significa para 2026
Para citar um sócio geral da A16z Anish Acharya:
“Se você achou que o saas-pocalypse era ruim, espere que o uso do computador fique realmente bom ainda este ano. As implicações para as empresas estabelecidas são 100 vezes maiores do que para os agentes de codificação, porque o uso do computador beneficia assimetricamente os integradores hostis.”
Acreditamos que 2026 é o ano quando os CUAs crescem e experimente uma melhora drástica no desempenho. Isso significa que os humanos trabalharão menos? Não necessariamente. Pessoas com ambição provavelmente trabalharão mais, porque veem do que são capazes agora que o teto de produção acabou. O que é considerado produtivo hoje pode parecer modesto em seis meses. As expectativas aumentarão, desde pedir a um agente que preencha um formulário até pedir que ele represente você em uma reunião do Zoom, até tarefas que ainda não conseguimos articular totalmente. Trabalhadores com inteligência artificial não diminuirão a velocidade; eles apenas elevarão o nível. As aspirações humanas não se estabilizam.
Construir computadores autônomos não significa substituir humanos. Isso significa cooperação.
Liberte suas mãos do computador. Baixe o Simular hoje gratuitamente.