컴퓨터 사용 에이전트 구축에 있어 서로 반대되는 단결
작성자: 앙 리

컴퓨터를 사용하는 에이전트를 구축하려면 인간과 기계, 자연어와 프로그래밍 언어, 엔트로피와 질서, 유연성과 안정성 등 다양한 반대의 문제를 해결해야 합니다.이러한 긴장이 어떻게 상호 작용하여 기계 지능을 달성하는지 이해하려면 먼저 에이전트가 실제로 '좋은' 역할을 하는 요소를 파악해야 합니다.
“이미 코딩 에이전트를 통해 중요한 작업의 80% 를 해결할 수 있다면 GUI에 계속 투자할 이유가 있을까요?”
이 에세이에서 저는 인간이 말을 할 수 있기 때문에 더 이상 손이 필요 없다고 말하는 것과 같다고 주장합니다.목소리만으로는 할 수 없는 손재주가 필요한 과제는 항상 있기 마련입니다.
또한 GUI 에이전트가 AGI에 중요한 이유, 다양한 AI 에코시스템에 유용한 이유, AI가 인간의 일을 더 많이 또는 적게 한다는 의미인지에 대해서도 글을 씁니다.
컴퓨터 사용 에이전트와 함께한 하루
AI의 신뢰성을 확보하려면 어색한 현실에 직면해야 합니다. 인간의 언어는 의사소통 능력, 설득력, 감성적인 힘에도 불구하고 언어는 매우 모호하고 실행하기에 끔찍합니다.일상적으로 주고받는 다음과 같은 친숙한 대화를 생각해 보십시오.
시리즈 A 기술 스타트업의 CEO로서 제 전형적인 하루는 이제 이렇게 보입니다.아침에 가장 먼저 Simular의 AI 에이전트인 Sai에게 문자를 보내고 X와 LinkedIn에 흥미로운 게시물을 올려달라고 부탁합니다.그런 다음 직원에게 이메일을 확인하고, 플래그를 지정하고, 긴급한 이메일에 응답해 달라고 요청합니다. 때로는 이메일이 제가 쓴 것인지 상담원이 제 기질과 목소리를 알아차렸는지 알 수 없을 때도 있습니다.코드를 작성해야 할 때는 직접 코딩하는 대신 휴대폰을 꺼내 사이에게 커서와 대화하라고 지시합니다.오후에는 Zoom 통화를 연달아 받는 경우가 많기 때문에 상담원에게 먼저 참여해 달라고 부탁하고 제가 늦을 경우 사람들에게 알려주곤 했습니다.
Sai는 아직 모든 데스크톱 작업을 자율적으로 수행할 수 없으며 AGI에 도달하기까지는 아직 거리가 멀었습니다.Claude Code 및 Cursor 같은 코딩 에이전트는 API로 액세스할 수 있는 가장 일반적이고 예측 가능한 작업의 약 80% 를 처리합니다.하지만 나머지 문제는 근본적으로 인간과 유사한 지각 능력을 갖추고 있지 않기 때문에 해결할 수 없습니다.일련의 API 호출을 통해 결과를 제공합니다.반대로 인간은 API 액세스를 제공하지 않는 시스템을 우회하여 모든 인터페이스를 자유롭게 탐색할 수 있습니다.
Sai는 그래픽 사용자 인터페이스 (GUI) 인텔리전스 수준에서 작동하도록 설계되어 명령줄로는 수행할 수 없는 긴 디지털 작업 (예: 데스크톱 수준에서 클릭, 입력, 앱 탐색) 을 처리합니다.대표적인 예가 API를 노출하지 않는 웹 사이트와 상호작용하는 것입니다. 기업이 데이터 월을 구축했거나 레거시 소프트웨어가 SaaS 시대보다 훨씬 앞서 있기 때문입니다.GUI 기반 에이전트는 사람과 같은 방식으로 화면을 보고 운영합니다. 실제로 가장 효과적인 접근 방식은 두 가지 모두를 결합합니다. 즉, 가능하면 효율성을 위해 터미널을 사용하고, 작업이 필요할 때는 GUI로 대체합니다.
GUI가 사라지지 않는 이유
인간의 모호성을 코드로 변환하는 것은 에이전트 문제의 절반만 해결합니다.신뢰도 자체는 무질서를 향한 우주의 거침없는 흐름인 엔트로피에 대한 저항의 결과입니다.방은 점점 지저분해지죠.직원들의 사기가 떨어집니다.조직은 인간의 혼란에 질서를 부여하고 불확실성을 예측 가능성으로 바꾸기 위해 존재합니다.코드는 인간의 무질서한 생각을 질서 있고 결정론적인 체계로 바꾸는 도구입니다.
이미 코딩 에이전트로 중요한 작업의 80% 를 해결할 수 있다면 GUI에 계속 투자할 이유가 있을까요?텍스트 필드로 축소되고 명령이 데이터 센터로 전송되고 결과가 전달되는 소프트웨어 인터페이스가 점점 더 얇아짐에 따라 이러한 사용 사례가 줄어들지 않을까요?
인간이 말을 할 수 있기 때문에 더 이상 손이 필요 없다고 말하는 것과 같습니다.목소리만으로는 할 수 없는 손재주가 필요한 과제는 항상 있기 마련입니다.인간이 외부 세계와 상호작용하는 방법은 여러 가지가 있지만, 음성은 그 중 하나일 뿐입니다.소프트웨어가 인간과 상호작용해야 하는 한, GUI는 존재할 것입니다.언어는 본질적으로 모호하기 때문에 순수한 텍스트 기반 명령으로는 충분하지 않습니다. 같은 단어라도 상황에 따라 다른 의미를 전달할 수 있기 때문입니다.그리고 앱 구축이 점점 더 쉬워지면서 GUI도 급증할 것입니다.롱테일 디지털 작업은 줄어들지 않을 것이며, 무엇보다도 가장 가치 있는 작업에 집중하는 경향이 있습니다.Text-based commands might be sufficient but people really need very long text to describe the meaning/concept like lawyers do. Text is easy to be ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.
And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.That's like saying humans no longer need hands because they can speak. There will always be tasks requiring the dexterity that voice alone can't accomplish. There are many ways for humans to interact with the outside world, and speech is just one of them. So long as software needs to interact with humans, GUI will exist. Purely text-based commands aren't sufficient, because language is inherently ambiguous -- the same word can convey different meanings depending on the context. And as it becomes ever easier to build apps, GUIs will proliferate. The long tail digital tasks won't shrink; if anything, it tends to concentrate the highest-value work.
전략적 차원도 있습니다.API 액세스에만 의존한다는 것은 수년간 벽으로 둘러싸인 정원을 만들어 온 기존 기업의 규칙을 따르는 것을 의미합니다.사람처럼 보고 행동하는 GUI 에이전트는 벽을 완전히 무너뜨리지는 않더라도 이러한 벽을 우회할 수 있습니다.
OpenClaw와 같은 컴퓨터 사용 도구에 대한 최근의 관심은 제대로 작동한다는 것이 아니라 여전히 버벅거리고 엣지 케이스와 보안 문제로 가득 차 있습니다.하지만 하드웨어의 역할이 사라지고 동료처럼 에이전트와 통신하는 방법만 있으면 되는 자율 컴퓨터의 미래를 엿볼 수 있습니다.GUI 에이전트가 다음 기능 단계에 도달했을 때 일반 소비자가 GUI 에이전트에 액세스할 수 있게 된다면, 오늘날 코딩 에이전트에 대한 입소문을 무색하게 할 ChatGPT 수준의 또 다른 폭발적인 채택을 보게 될 것입니다.
이것이 2026년에 의미하는 바는
a16z 제너럴 파트너의 견적 아니시 아차리아:
“saas-pocalypse가 나쁘다고 생각했다면 올해 말에 컴퓨터 사용이 정말 좋아질 때까지 기다리세요.컴퓨터를 비대칭적으로 사용하면 적대적인 통합업체에게 이익이 되기 때문에 기존 기업에게 미치는 영향은 코딩 에이전트보다 100배 더 큽니다.”
우리는 2026년이 그 해라고 믿습니다 CUA가 성장할 때 극적인 성능 향상을 경험하세요.그러면 사람이 일을 덜 하게 되는 걸까요?꼭 그렇지는 않아요.야망이 있는 사람들은 처리량 한도가 사라진 지금 자신이 무엇을 할 수 있는지 알기 때문에 더 많이 일할 것입니다.오늘날 생산적이라고 여겨지는 것이 6개월 후에는 미미해 보일 수 있습니다.상담원에게 양식을 작성하도록 요청하는 것부터 Zoom 회의에서 당신을 대변해 달라고 부탁하는 것, 아직 완전히 표현할 수 없는 작업에 이르기까지 기대치는 더 높아질 것입니다.AI 기반 작업자는 속도를 늦추지 않고 기대치를 높일 뿐입니다.인간의 열망은 멈추지 않습니다.