조

2026: 데스크톱 에이전트가 더 이상 장난감이 되지 않는 해

작성자: 앙 리

2025년은 에이전트에 대해 이야기하던 한 해처럼 느껴졌습니다.

마누스 (Manus) 의 등장과 그 뒤를 이어 쏟아지는 에이전트 툴의 홍수는 기분 좋게 느껴졌고, 보는 것만으로도 조금 이상했습니다.제가 2019년에 AI 에이전트를 연구할 당시만 해도 신경을 쓰는 사람은 거의 없었습니다. 사람들은 저에게 당시 유행했던 “부조종사”에 대해 알아보라고 하더군요.하지만 저는 항상 더 많은 것을 목표로 하고 있었습니다. 화면을 보고, 키보드와 마우스를 사용하고, 모든 컴퓨터 인터페이스에서 안정적으로 작동할 수 있는 컴퓨터 사용 에이전트였기 때문에 인간이 과도한 데스크톱 작업에서 해방될 수 있게 되었죠.

작년에는 그 미래가 추상적으로 느껴지지 않았고, 지금은 훨씬 더 가까워졌습니다.LLM은 크게 발전했지만 AI의 신뢰성에 대해 업계가 생각하는 방식이기도 합니다.내년에 나타날 것으로 예상되는 세 가지 트렌드는 다음과 같습니다.

에이전트 신뢰성이 올바른 평가를 받다

벤치마크는 항상 기술 발전의 속도를 정의해 왔습니다.오랫동안 에이전트는 한 번 성공할 수 있는지를 기준으로 평가를 받았습니다.단일 시도 성공 여부를 측정하는 기존 pass @k 벤치마크에서는 한 게임에서 한 명의 승자를 선정합니다.하지만 신뢰성이나 해답은 제시하지 못합니다. 이런 상황이 닥칠 때마다 이걸 믿을 수 있을까요?

업계는 더 나은 프레임워크로 융합하고 있습니다: 최초의 pass^k 소개했다 2024년 LLM 기반 에이전트에 대한 벤치 벤치마크의 일환으로Pass^k는 에이전트가 성공할 확률을 나타냅니다. 매번 k개의 임상시험에 걸쳐k가 증가함에 따라 통과^k 드롭이 발생합니다.예를 들어 시도당 성공률이 75% 인 상담원 (pass @k) 이 3회 연속으로 성공할 확률은 약 42% 에 불과합니다.즉, 합격률^k는 (0.75) ³ ≈ 42% 에 불과합니다.

많은 고객 대면 상담원에게 반복성은 매우 중요합니다.인간은 실제 업무에서 “대부분 일을 하는” 것을 용납하지 않습니다.상담원이 성공적인 행동을 안정적으로 재현하지 못하면 (여전히 탁아 서비스가 필요한 경우) 고객에 대한 가치도 빠르게 무너집니다.

데스크톱 에이전트를 사용할 수 있게 되었습니다

오늘날 엄청난 양의 SaaS 사용자 인터페이스는 작업에 관한 것이 아니라 마찰에 관한 것입니다. 과도한 클릭과 취약한 추상화로 인해 현재 사용자가 하려는 작업과 일치하지 않습니다.이것이 바로 에이전시 기업들이 데스크톱 워크플로를 자동화하기 위해 서두르는 이유입니다.하지만 2025년에는 이런 경험을 하게 될 수도 있습니다. LLM에 장황한 명령을 입력하거나 말하고 응답을 기다린 다음 반복하는 것보다 몇 번 클릭하는 것이 더 빠르고 명확했습니다.헤드라인에서 AI 도구가 실제로 어떻게 작업 속도를 늦췄는지 설명하는 것은 그리 놀라운 일이 아니었습니다.

하지만 상황이 빠르게 변하고 있습니다.작년의 컴퓨터 사용 요원들이 몇 걸음만 밟아도 무언가를 깨뜨릴 위험이 끊이지 않는 유아였다면, 올해는 좀 더 다섯 살짜리처럼 느껴집니다.아이들은 여전히 제한적이어서 매우 창의적이거나 모호한 작업을 처리할 수 없습니다.하지만 그들은 안정적으로 걸을 수 있어요.아이들은 지시를 따를 수 있어요.그리고 결정적으로 아이들은 무거운 추론이 필요 없는 작업을 반복할 수 있습니다. 예를 들어 아이가 부모의 말을 따라 반복해서 반복해서 반복해서 통과하면 새로운 이정표에 도달할 수 있습니다.

pass^k가 계속 개선됨에 따라 지속적인 사용자 개입 없이 엔드 투 엔드 작업을 완료하는 실행 가능한 크로스 OS 데스크톱 에이전트를 보게 될 것입니다.신뢰성이 한계점을 넘어서면 기능 성장은 더욱 악화됩니다.결국 SaaS는 인터페이스를 보고 작동할 수 있는 컴퓨터 사용 에이전트가 최우선으로 자리잡게 될 것입니다. SaaS는 기본적으로 최신 UI를 갖춘 자동화된 사용자 정의 워크플로우입니다.

사람이 더 이상 작업을 하지 않게 되면 하드웨어는 단순화될 것입니다.

세 번째 트렌드는 우리 회사의 비전인 자율 컴퓨터 회사와 직접 관련이 있습니다.

대부분의 최신 하드웨어는 인체 공학을 중심으로 설계되었습니다.Apple이 트랙패드를 완성한 것은 인간이 필요로 했기 때문입니다.하지만 AI가 주요 오퍼레이터가 되면 이동, 클릭, 타이핑이 사라집니다.컴퓨터로 작동하는 에이전트가 더욱 강력해짐에 따라 에이전트를 호스팅하는 하드웨어는 덜 복잡해질 것입니다.에이전트는 불필요한 인간-컴퓨터 상호 작용을 제거합니다.인간은 인텐트를 발행합니다.AI가 그 일을 합니다.

이것이 첫 날부터 최종 게임이 소프트웨어에만 국한되지 않는 이유입니다.시간이 흐르면 컴퓨터는 궁극적으로 어떤 형태를 취하든 상담원을 최우선으로 고려하여 설계될 것입니다.우리는 AI 하드웨어가 단순히 말을 하지 않는 단계에 접어들고 있습니다 (Alexa를 생각해보세요).또한 그럴 것입니다. 해야 할 것.

________

AGI와 사회적 혼란에 대한 불안감은 이해할 만합니다.당분간 에이전트는 오늘날 사람들이 하는 많은 일을 하게 될 것입니다.이러한 우려는 심각하게 주의를 기울여야 합니다.

그러나 역사에 따르면 기술적 변화는 파괴적이긴 하지만 항상 새로운 유형의 작업을 만들어 왔습니다.조립 라인은 제조업 일자리를 없앤 것이 아니라 완전히 새로운 산업을 창출했습니다.에이전트가 진정으로 신뢰할 수 있게 되면 새로운 문제를 해결하기 위해 여전히 인간의 판단력과 창의성이 필요한 인력을 제대로 공급하지 못하는 문제가 생길 수 있습니다.

2026년이 다른 점은 우리가 문턱을 넘고 있다는 것입니다.데스크톱 에이전트는 연구 실험실에서 제작 도구로 옮겨가고 있습니다.기업에서 이 솔루션에 의존하기 시작할 만큼 신뢰도가 높아지고 있습니다.문제는 더 이상 상담원이 사람이 하는 일을 할 수 있는지 여부가 아니라 이러한 전환을 원활하게 만드는 인간-AI 협업 패턴을 설계하는 방법입니다.

2026년은 데스크톱 에이전트가 단순한 장난감에서 탈피하여 실제 인간 작업을 시작하는 해가 될 것입니다.그리고 이것은 시작에 불과합니다.

자율 컴퓨터를 만든다고 해서 인간을 대체하는 것은 아닙니다.협력을 의미하죠.

컴퓨터에서 손을 떼십시오.지금 Simular를 무료로 다운로드하세요.

시뮬러 사용해보기