Les arguments en faveur des agents GUI
par Ang Li • Palo Alto, Californie • 23 avril 2026

Une question que je reçois sans cesse :
« Si nous pouvons déjà résoudre 80 % des tâches importantes grâce à des agents de codage, pourquoi continuer à investir dans l'interface graphique ? »
Dans cet essai, je soutiens que c'est comme dire que les humains n'ont plus besoin de mains parce qu'ils peuvent parler. Il y aura toujours des tâches qui demanderont une dextérité que la voix seule ne peut accomplir.
J'explique également pourquoi les agents d'interface graphique sont essentiels à l'AGI, pourquoi ils sont bénéfiques pour un écosystème d'IA diversifié et si l'IA signifie que les humains travaillent plus ou moins.
Ma journée avec un agent informatique
Récemment, j'ai remarqué que le temps que je passais devant l'ordinateur avait été considérablement réduit à environ deux heures par jour. Il y a un an, j'avais facilement huit ans. La différence, c'est que les agents informatiques (CUA) s'améliorent de plus en plus à mesure que l'industrie fabrique enfin des agents capables de voir et d'agir comme des humains.
Ma journée typique en tant que PDG d'une start-up technologique de série A ressemble maintenant à ceci. Dès le matin, j'envoie un texto à Sai, l'agent IA de Simular, pour lui demander de publier des articles intéressants sur X et LinkedIn. Je lui demande ensuite de vérifier mes e-mails, de signaler les e-mails urgents et d'y répondre ; parfois, je n'arrive même pas à savoir si l'e-mail a été écrit par moi ou par l'agent, qui a capté mon tempérament et ma voix. Si j'ai besoin d'écrire du code, je sors mon téléphone et demande à Sai de parler à Cursor au lieu de coder moi-même. L'après-midi, je reçois souvent des appels Zoom consécutifs. Je demandais donc à l'agent de me rejoindre en premier et d'informer les gens si je suis en retard.
Sai ne peut pas encore effectuer toutes mes tâches de bureau de manière autonome, et nous sommes encore loin d'atteindre AGI. Les agents de codage tels que Claude Code et Cursor traitent environ 80 % des tâches les plus courantes, prévisibles et accessibles par API. Mais ils ne peuvent pas résoudre le reste car, fondamentalement, ils ne sont pas dotés de capacités de perception semblables à celles des humains. Ils fournissent des résultats par le biais de chaînes d'appels d'API. Les humains, en revanche, peuvent naviguer librement sur n'importe quelle interface, en contournant les systèmes qui n'offrent aucun accès aux API.
Sai est conçu pour fonctionner au niveau de l'intelligence de l'interface utilisateur graphique (GUI), en gérant la longue série de tâches numériques qui ne peuvent pas être accomplies via une ligne de commande : cliquer, taper et naviguer dans les applications au niveau du bureau. Un exemple typique est l'interaction avec des sites Web qui n'exposent pas d'API, soit parce que les entreprises ont construit des murs de données, soit parce que les logiciels existants sont complètement antérieurs à l'ère du SaaS. Un agent basé sur une interface graphique voit et utilise l'écran comme le fait un humain. Dans la pratique, l'approche la plus efficace combine les deux : utiliser le terminal pour plus d'efficacité lorsque cela est possible, revenir à l'interface graphique lorsqu'une tâche l'exige.
Pourquoi l'interface graphique ne disparaîtra pas
Vous pourriez vous demander :
Si nous pouvons déjà résoudre 80 % des tâches importantes avec des agents de codage, pourquoi continuer à investir dans l'interface graphique ? Ces cas d'utilisation ne vont-ils pas diminuer à mesure que les interfaces logicielles s'amincissent, qu'il s'agisse d'un champ de texte, d'une commande envoyée à un centre de données et d'un résultat délivré ?
C'est comme dire que les humains n'ont plus besoin de mains parce qu'ils peuvent parler. Il y aura toujours des tâches qui demanderont une dextérité que la voix seule ne peut accomplir. Les humains peuvent interagir avec le monde extérieur de nombreuses manières, et la parole n'est que l'une d'entre elles. Tant que le logiciel aura besoin d'interagir avec les humains, l'interface graphique existera. Les commandes purement textuelles ne sont pas suffisantes, car le langage est intrinsèquement ambigu : un même mot peut avoir des significations différentes selon le contexte. Et à mesure qu'il devient de plus en plus facile de créer des applications, les interfaces graphiques vont se multiplier. Les tâches numériques à long terme ne diminueront pas ; au contraire, elles ont tendance à concentrer les tâches les plus importantes.Text-based commands might be sufficient but people really need very long text to describe the meaning/concept like lawyers do. Text is easy to be ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.
And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.That's like saying humans no longer need hands because they can speak. There will always be tasks requiring the dexterity that voice alone can't accomplish. There are many ways for humans to interact with the outside world, and speech is just one of them. So long as software needs to interact with humans, GUI will exist. Purely text-based commands aren't sufficient, because language is inherently ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.
Il y a également une dimension stratégique. S'appuyer exclusivement sur l'accès aux API, c'est respecter les règles des opérateurs historiques qui ont passé des années à construire des jardins clos. Un agent d'interface graphique qui voit et agit comme un humain peut contourner ces murs, voire les démolir complètement.
L'engouement suscité récemment par des outils informatiques tels qu'OpenClaw n'est pas dû au fait qu'ils fonctionnent bien, mais qu'ils sont toujours désordonnés, truffés de problèmes de sécurité et de problèmes de sécurité. Mais cela donne un aperçu de l'avenir des ordinateurs autonomes, où le rôle du matériel diminue et où tout ce dont vous avez besoin, c'est d'un moyen de communiquer avec l'agent comme vous le feriez avec un collègue. Lorsque les agents d'interface graphique atteindront leur prochaine étape de fonctionnalité, si les agents d'interface graphique deviennent accessibles aux consommateurs ordinaires, nous pourrions assister à un autre niveau d'adoption explosive du ChatGPT, un niveau qui éclipse l'engouement autour des agents de codage aujourd'hui.
Ce que cela signifie pour 2026
Pour citer le partenaire général d'a16z Anish Acharya:
« Si vous pensiez que Saas-Pocalypse n'était pas une bonne solution, attendez que l'utilisation de l'ordinateur redevienne vraiment bonne plus tard cette année. Les implications pour les opérateurs historiques sont 100 fois plus importantes que pour les agents de codage, car l'utilisation asymétrique des ordinateurs profite aux intégrateurs hostiles. »
Nous pensons que 2026 est l'année quand les CUA grandissent et bénéficiez d'une amélioration spectaculaire de vos performances. Cela signifie-t-il que les humains travailleront moins ? Pas nécessairement. Les personnes ambitieuses travailleront probablement davantage, car elles voient de quoi elles sont capables maintenant que le plafond de débit est dépassé. Ce qui est considéré comme productif aujourd'hui pourrait paraître modeste dans six mois. Les attentes vont augmenter, qu'il s'agisse de demander à un agent de remplir un formulaire, de lui demander de vous représenter lors d'une réunion Zoom ou de tâches que nous ne pouvons pas encore définir complètement. Les travailleurs alimentés par l'IA ne ralentiront pas ; ils relèveront simplement la barre plus haut. Les aspirations humaines ne stagnent pas.
Construire des ordinateurs autonomes ne signifie pas remplacer les humains. Cela signifie coopération.
Libérez vos mains de l'ordinateur. Téléchargez Simular dès aujourd'hui gratuitement.