추천

에이전트 S2: 오픈,
컴퓨터 사용 에이전트를 위한 모듈식 및 확장 가능한 프레임워크

2025년 3월 12일

컴퓨터 사용 에이전트데스크톱, 모바일 장치, 브라우저 및 다양한 소프트웨어를 포함한 그래픽 사용자 인터페이스 (GUI) 와 직접 상호 작용하여 인간 사용자를 대신하여 작업을 관찰하고 추론하고 수행하는 자율 AI 에이전트입니다.이들은 가장 직관적인 방식으로 인간 사용자와 디지털 도구 사이의 지능형 중개자 역할을 합니다. 바로 인간과 마찬가지로 마우스와 키보드 제어입니다.인간과 같은 소프트웨어 탐색 및 제어 능력은 AI의 근본적인 도약을 의미하며, 자율 컴퓨터 사용 에이전트로 구동되는 차세대 기술 발전을 위한 무대를 마련합니다.



오늘 컴퓨터용 에이전트의 다음 도약을 발표하게 되어 기쁩니다.에이전트 S2, 우리의 에이전트 프레임워크의 2세대.초기의 성공을 바탕으로 에이전트 S2 프론티어 기반 모델과 특수 모델을 모두 활용하여 훨씬 더 뛰어난 성능과 모듈성을 제공합니다. 에이전트 S2 새로운 최첨단 결과를 달성하고 더 많은 단계를 거쳐도 잘 확장할 수 있으며 가장 중요한 것은 완전히 개방적이라는 것입니다!

최첨단 퍼포먼스

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents
에이전트 S2 w. 클로드 3.7 이상 OSWorld 벤치마크에서 Ui-Tars를 획득했습니다
(에이전트 S2 w. 클로드 3.7 이상 OS월드 벤치마크 UI 기준)

Agent S2는 주요 벤치마크 과제에서 눈에 띄는 발전을 통해 탁월한 컴퓨터 및 전화 사용을 보여줍니다.

컴퓨터 사용의 경우 에이전트 S2는 15단계 및 50단계 평가 (실제 사용을 위한 가장 실용적인 두 가지 설정) 모두에서 OSWorld의 최신 결과를 제공합니다. 이를 통해 에이전트의 에이전트 프레임워크가 보다 정확한 조치를 취하고 작업에 대한 최상의 계획을 수립하는 동시에 장기적으로 자체적으로 수정하고 개선할 수 있다는 것을 증명합니다.특히 에이전트 S2는 50단계 평가에서 34.5% 의 정확도를 달성하여 이전 SOTA (OpenAI CUA/Operator 32.6%) 를 능가하여 에이전트 프레임워크가 단일 학습된 모델 이상으로 확장될 수 있는 방법을 보여줍니다.

스마트폰 사용의 경우 에이전트 S2는 AndroidWorld에서 50% 의 정확도를 달성하여 이전 SOTA (UI-TARS 46.8%) 를 능가합니다. 이는 다양한 시각적 UI 환경에서 에이전트 프레임워크가 일반화되었음을 보여줍니다.

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

이 블로그 게시물 이후, 우리는 논문을 준비하면서 AndroidWorld에서 더 강력한 성과를 거두었습니다.최신 성능을 반영하여 이 표를 업데이트했습니다.자세한 내용은 백서를 참조하십시오.

모듈식 프레임워크가 중요한 이유: 인간 두뇌에서 얻은 영감

인간의 두뇌는 모듈식 설계의 놀라운 예입니다. 즉, 특수 구성 요소가 조화롭게 작동하는 네트워크입니다.각 영역은 각기 다른 작업에 탁월합니다. 좌뇌는 분석적 사고의 원동력이 되고, 우뇌는 창의성을 촉진하며, 운동 및 감각 영역은 신체적 협응력을 관리합니다.협업에 최적화된 이 모듈식 구조는 우리가 컴퓨터용 AI 에이전트 설계에 접근하는 방식에 영감을 줍니다.

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

Simular에서는 가장 효과적인 AI 에이전트가 유사한 원칙, 즉 단일 모놀리식 시스템에 의존하는 대신 다양한 모델을 원활하게 오케스트레이션하는 모듈식 프레임워크를 따라야 한다고 생각합니다.초기 에이전트 프레임워크는 에이전트 S2024년 10월 11일에 출범한 은 이러한 비전을 구현합니다.경험 증강 계층적 계획을 핵심으로 삼아 Agent S는 당시의 어떤 모델 및 프레임워크보다 전반적으로 더 나은 성능을 달성했습니다.

우리의 최신 연구에 따르면 잘 설계된 모듈식 프레임워크는 최적이 아닌 개별 모델을 사용하더라도 최고의 독립형 모델보다 성능이 뛰어날 수 있습니다.그 이유는 무엇일까요?모델마다 각기 고유한 강점과 약점이 있는 분야가 다르기 때문입니다.견고한 모델 프레임워크는 오케스트레이션을 최적화합니다. 이러한 모듈 중에서 각 모델이 가장 성과가 좋은 부분에 기여하여 전반적인 성과가 우수하도록 합니다.빠르게 진화하는 기반 모델 환경 속에서 모듈성이 핵심입니다. 우리의 차세대 에이전트 프레임워크는 에이전트 S2모듈성과 유연성이 향상되어 인식, 계획 및 세분화된 제어가 크게 향상됩니다.

에이전트 S2: 작동 원리

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

Agent S2는 모듈식의 확장 가능한 접근 방식을 통해 복잡한 디지털 작업을 처리하도록 설계되었습니다.프레임워크는 네 가지 주요 설계 원칙을 강조합니다.

사전 예방적 계층적 계획

에이전트 S2는 자연스러운 작업 계층 구조를 따르며 결합됩니다. 저수준 실행을 위한 특수 모델고급 계획을 위한 일반화된 모델.UI 요소 선택 또는 텍스트 강조 표시와 같은 낮은 수준의 작업에는 높은 정밀도와 도메인별 전문 지식이 필요하지만 높은 수준의 작업에는 광범위한 적응성과 전략적 감독이 필요합니다.또한 Agent S2의 주요 발전은 바로 이러한 변화입니다. 사후 계획에서 사전 계획으로.역추적하는 데 더 많은 단계가 필요하고 더 많은 오류가 발생할 수 있는 오류가 발생한 후에만 계획을 다시 세우는 대신 에이전트 S2는 각 하위 작업 후에 계획을 동적으로 업데이트합니다.이러한 사전 예방적 접근 방식을 통해 실시간 변경에 대한 적응성, 한 하위 작업에서 다음 하위 작업으로의 연속성, 향후 단계의 최적성이 향상됩니다.

정확한 상호 작용을 위한 시각적 기반
​​
Agent S2는 특수 시각적 접지 모델을 통해 그래픽 사용자 인터페이스 (GUI) 와의 고정밀 상호 작용을 달성합니다.UI 이해를 위해 접근성 트리에 의존했던 이전 버전과 달리 Agent S2는 원시 스크린샷을 입력으로 사용하는 경우에만 작동합니다.따라서 구조화된 접근성 데이터가 필요하지 않습니다.에이전트 S2는 시각적 이해를 전용 모델에 위임함으로써 버튼, 텍스트, 이미지 및 셀과 같은 UI 요소를 정확하게 찾아 조작할 수 있으므로 이전에는 접근성 제약으로 제한되었던 세밀한 제어가 가능해졌습니다.

전문가 모듈이 포함된 에이전트-컴퓨터 인터페이스

Agent S2는 텍스트 강조 표시와 같은 복잡하고 낮은 수준의 작업을 다음으로 오프로드하여 에이전트-컴퓨터 인터페이스 (ACI) 를 개선합니다. 전문 전문가 모듈.이것은 인지 부하를 줄인다. 기본 모델에 중점을 두어 높은 수준의 계획과 전략적 의사 결정에만 집중할 수 있도록 합니다.

에이전트 메모리 메커니즘

에이전트 S2는 경험에 따라 진화하여 시간이 지남에 따라 효율성을 개선할 수 있는 지속적 학습 메모리 메커니즘을 사용합니다.이전에 완료한 작업의 경험이 보존되므로 에이전트 S2는 이전 작업을 회상하고 과거의 성공 및 실패를 기반으로 미래 전략을 조정할 수 있습니다.이러한 적응형 학습 기능을 통해 에이전트 S2는 각 애플리케이션에 대해 더 능숙해질 수 있으며, 이는 장기적인 적응형 인텔리전스와 맞춤형 자동화를 위한 토대를 마련합니다.

이 모듈식 아키텍처는 확장과 조정도 수월합니다.기반 모델이나 전문가 모델을 기반으로 하는 새 모듈을 쉽게 통합, 제거 또는 교체할 수 있으므로 Agent S2는 새로운 작업 영역에 쉽게 빠르게 적응할 수 있습니다.

에이전트 S2 활동 중

Google 드라이브에서 이미지를 다운로드하고 GIMP를 사용하여 압축합니다.

이미지를 문서에 복사

GIMP에서 리브레오피스 라이터 문서로 이미지를 복사한 다음 문서를 내보냅니다.

웹 확장 설정

웹 확장 설정

image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action

비디오 자막 제거

비디오에서 자막을 제거하고 새 비디오를 내보냅니다.

image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action

취소선 단락

리브레오피스 라이터 문서의 마지막 단락에 취소선을 그어 넣으세요

파일 정리

작업: sdk_gphone_x86_64 저장소 영역 내의 팟캐스트에서 안드로이드 파일 시스템의 동일한 sdk_gphone_x86_64 저장소 영역 내의 DCIM으로 holiday_photos.jpg 파일을 이동합니다.

사용할 준비가 되셨나요?
비슷한 방식의 컴퓨터?

기억을 공유하고 정리하고 작업을 개인화하세요.