에이전트 S2 기술 검토
2025년 4월 1일
컴퓨터를 인간처럼 사용할 수 있는 에이전트를 구축하는 것은 인공 일반 지능으로 향하는 길에서 가장 어려운 이정표 중 하나로 남아 있습니다.개방형 디지털 작업 실행부터 GUI를 통한 익숙하지 않은 애플리케이션 탐색에 이르기까지 문제 공간은 방대하고 시끄럽고 매우 동적입니다.오늘 다음과 같은 기술 문서를 발표하게 되어 매우 기쁩니다. 에이전트 S2, 여러 컴퓨터 사용 벤치마크에서 새로운 최첨단 성능을 설정한 모듈식 프레임워크입니다.
2주 전에 Agent S2를 오픈소스로 공개했습니다.이제 기술 백서가 발표되면서 시스템 이면의 핵심 아이디어와 아키텍처를 심층적으로 살펴볼 수 있게 되어 기쁩니다.초보자에게 좀 더 친숙한 설명을 원하시면 이전 블로그 게시물을 확인해 보세요.
에이전트 S2 개요: 구성 인텔리전스
Agent S2는 단순하지만 강력한 아이디어를 중심으로 설계되었습니다. 즉, 단일 모놀리식 모델을 기반으로 계획하고 실행하며 화면과의 상호 작용을 기반으로 하는 대신 제너럴리스트 모듈과 전문가 모듈로 이러한 책임을 분담합니다.이 구성 설정은 고급 계획자, 저급 실행자, 인터페이스 전문가 등 전문 인간 운영자가 함께 작업하는 방식을 모방합니다.

에이전트 S2의 주요 기능:
접지 혼합물 (MoG): 접지 전문가 (시각적, 텍스트, 구조) 를 활용하여 GUI 요소의 위치를 정확하게 파악합니다.
사전 계층 계획 (PHP): 고정된 스크립트를 따르지 않고 환경의 피드백을 기반으로 계획을 동적으로 개선합니다.
벤치마크 결과: 플랫폼 전반의 최신 기술
Agent S2는 널리 사용되는 OSWorld 벤치마크에 새로운 기준을 제시합니다.

또한 다음과 같은 강력한 일반화를 보여줍니다.
윈도우 에이전트 아레나:이전 SOTA에 비해 +52.8% 개선
안드로이드 월드:이전 SOTA에 비해 16.5% 이상 개선됨

.webp)
디자인 혁신: MoG+PHP
대부분의 에이전트는 잘못된 접지 또는 엄격한 계획으로 인해 실패합니다.에이전트 S2는 다음 두 가지 문제를 모두 해결합니다.
접지 혼합물: 각 인터랙션을 가장 적합한 전문가에게 라우팅합니다.예를 들어 스프레드시트의 경우 구조적 접지 전문가를 사용하고 버튼의 경우 시각적 접지를 사용합니다.기본을 계획과 분리하면 기본적으로 전체 문제가 비교적 단순한 두 개의 하위 문제로 분해되는데, 이는 현재의 일반 추론 모델 및 특수 시각적 근거 모델의 학습 분포에 더 잘 부합합니다.
사전 계획: 변경 사항이 있을 때 사람이 계획을 재평가하는 방식을 모방하여 새로운 관찰을 기반으로 하위 목표를 지속적으로 개선하고 조정합니다.

스케일링 및 오류 복구
에이전트 S2는 작업 범위가 더 길수록 모놀리식 모델보다 확장성이 뛰어납니다.초기 동작으로 원하는 효과를 내지 못할 경우 즉시 적응하고 자동으로 수정합니다.

데스크톱을 넘어선 일반화: Android 결과
Agent S2는 주로 데스크톱 에이전트용으로 제작되었지만 모바일 환경에 쉽게 적용할 수 있습니다.

사용할 준비가 되셨나요?
비슷한 방식의 컴퓨터?
기억을 공유하고 정리하고 작업을 개인화하세요.