신규

에이전트 S: 컴퓨터를 인간처럼 사용하는 개방형 에이전트 프레임워크

2025년 2월 27일

헤이!몇 달 전에 프린스턴 대학교에서 에이전트와 Simular에 대한 제 생각에 대해 강연을 한 적이 있어요.요약을 정리해서 블로그 게시물로 바꿔야겠다고 생각했습니다.

최첨단 퍼포먼스

저의 첫 직장은 Google DeepMind에서 연구 과학자로 일했는데, 여기서 제 역할 중 중요한 부분은 다양한 Google 제품 팀과 협업하여 최첨단 AI 기술을 적용할 기회를 파악하는 것이었습니다.하지만 한 구글 직원이 제게 전혀 관련 없는 질문을 던져 결국 DeepMind를 떠나 Simular를 시작하기로 결정하게 됐을 수도 있습니다.

에이전트 S는 뉴 에이전트
뼈대
활성화하도록 설계
다음과 같이 사용할 컴퓨터
인간처럼 직관적으로

경험 증강 계층 계획 방법을 소개합니다.이 방법은 자주 변경되는 소프트웨어 및 웹 사이트에 대한 최신 정보를 얻을 수 있는 온라인 웹 지식을 활용하고, 내러티브 메모리를 활용하여 과거 상호 작용에서 얻은 높은 수준의 경험을 활용합니다.에이전트 S는 복잡한 작업을 관리 가능한 하위 작업으로 나누고 에피소드 메모리를 사용하여 단계별 지침을 제공함으로써 지속적으로 작업을 개선하고 경험을 통해 학습하여 조정 가능하고 효과적인 작업 계획을 수립합니다.

다음과 같은 개방형 에이전트 프레임워크인 Agent S를 소개합니다. 자율적 상호작용을 가능하게 함 복잡한 다단계 작업을 자동화하여 인간-컴퓨터 상호 작용을 혁신하는 것을 목표로 하는 그래픽 사용자 인터페이스 (GUI) 를 통해 컴퓨터와 함께

이를 위해 Agent S는 다양한 수준에서 외부 지식 검색과 내부 경험 검색을 통해 학습하는 경험 증강 계층 계획을 도입하여 효율적인 작업 계획 및 하위 작업 실행을 촉진합니다.

또한 에이전트-컴퓨터 인터페이스를 사용하여 멀티모달 대형 언어 모델을 기반으로 하는 GUI 에이전트의 추론 및 제어 기능을 더 잘 이끌어냅니다.OSWorld 벤치마크를 바탕으로 평가한 결과, Agent S는 성공률에서 기준 대비 9.37% (상대 개선 83.6%) 더 뛰어난 성능을 보이며 새로운 첨단 기술을 달성한 것으로 나타났습니다.종합적인 분석을 통해 개별 구성 요소의 효율성을 강조하고 향후 개선을 위한 통찰력을 얻을 수 있습니다.

또한 Agent S는 새로 출시된 버전에서 다양한 운영 체제에 대한 광범위한 일반화 기능을 보여줍니다.
윈도우 에이전트 아레나 벤치마크.


에이전트 S는 컴퓨터 작업 자동화의 세 가지 주요 문제를 해결합니다.

Overview of Agent S Framework

개요 에이전트 S 프레임워크

작업 Tu와 초기 환경 관찰 0o가 주어지면 관리자는 웹 지식과 내러티브 메모리를 사용하여 경험 증강 계층적 계획을 수행하여 하위 작업 So,..., Sn을 생성합니다.작업자 Wi는 각 Si에 대해 에피소드 메모리를 활용하여 시간 t에 작업을 생성하고, ACI가 이 작업을 실행하여 다음 즉각적인 관찰값을 ot+1로 반환합니다.자체 평가 모듈은 요약된 하위 작업 및 전체 작업 궤적을 내러티브 메모리와 에피소드 메모리에 저장하여 루프를 닫습니다.

Overview of Agent S Framework

의 파이프라인 메모리 구성 및 업데이트

메모리 구성 및 업데이트의 파이프라인으로, 자체 지도 탐색과 지속적인 메모리 업데이트라는 두 단계로 구성됩니다.초기 내러티브 및 에피소드 기억은 탐구 단계에서 무작위로 선별된 몇 가지 작업을 통해 구성되며, 추론 작업을 기반으로 지속적으로 업데이트됩니다.

Pipeline of Memory Construction and Update

주요 결과

이 표는 전체 OSWorld 테스트 세트에서 평가된 Agent S와 기준 모델 간의 성능 비교를 보여줍니다.GPT-4o 모델의 경우 에이전트 S의 전체 성공률은 20.58% 로 가장 적합한 기준 (GPT-4o, 11.21%) 의 성능을 거의 두 배로 높였습니다.

에이전트 S는 각각 27.06% 와 36.73% 의 성공률에 도달한 '일일' 작업과 '전문가' 작업에서 기준선보다 지속적으로 높은 성과를 보였습니다. 이는 12.33% 와 14.29% 의 최고 기준 결과입니다.이러한 작업은 일반적으로 일상 생활에서 사용되거나 지식 집약적인 전문 응용 프로그램과 관련되어 있습니다. Agent S의 검색 기능을 통해 더 많은 이점을 얻을 수 있습니다. Claude-3.5-Sonnet과 GPT-4o 모두 대부분의 작업에서 기본 버전보다 성능이 뛰어납니다.심지어 클로드 3.5-소넷은 “일상” 및 “전문” 작업에서도 GPT-4o보다 성능이 뛰어납니다.

결과는 다양하고 복잡한 작업을 기본 접근 방식보다 더 효과적으로 처리하는 에이전트 S의 향상된 능력을 보여줍니다.

Pipeline of Memory Construction and Update
전체 369개 테스트 예제의 OSWorld 전체 테스트 세트에 대한 성공률 (%) 의 주요 결과

분석

Agent S의 개별 모듈의 효과를 입증하기 위해 65개의 하위 집합을 계층화했습니다.
인스턴스, 절제 연구를 위한 전체 테스트 세트의 testsub입니다.추론 비용을 고려하여 gPT-4o를 다음과 같이 활용했습니다.
베이스라인과 에이전트 S 모두에 대한 모든 절제 연구를 위한 LLM 백본

경험을 통한 학습은 GUI 에이전트의 도메인 지식을 향상시킵니다.

Main results of Successful Rate (%) on the OSWorld full test set of all 369 test examples

전체 369개 테스트 예제의 OSWorld 전체 테스트 세트에 대한 성공률 (%) 의 주요 결과

웹 지식으로 제공되는 보편적인 경험을 통해 에이전트 S는 광범위한 작업에 대해 정보에 입각한 계획을 세울 수 있으며 가장 큰 영향을 미칩니다.내러티브 기억과 에피소드 기억을 통한 학습은 웹 검색과 효과적으로 시너지 효과를 발휘하며, 결과를 보면 이러한 기억의 절제가 에이전트의 복잡한 작업 처리 능력에 어떤 영향을 미치는지 자세히 설명하여 경험적 학습의 가치를 잘 보여줍니다.이러한 결과는 각 구성 요소가 상담원의 영역 지식을 향상시키는 데 중요한 역할을 한다는 것을 보여줍니다.세 가지 구성 요소를 모두 제거하면 (모두 제외) 성능이 크게 저하되어 설계 경험을 통한 학습의 중요성이 드러납니다.

ACI는 LLM의 더 나은 추론 능력을 이끌어냅니다
더 나은 에이전트 학습을 지원합니다.

기준선을 에이전트 S (ACI 전용) 와 비교하면 ACI를 통합하여 얻을 수 있는 향상된 추론 능력을 강조할 수 있습니다.또한 체험 학습 프로세스를 통합하여 ACI가 에이전트 러닝에 미치는 영향을 조사했습니다.기본적으로 체험 학습을 추가하면 전반적인 성과가 약간 향상되었습니다.그러나 에이전트 S (ACI 전용) 에 추가했을 때 성능이 크게 향상되어 ACI가 에이전트 학습을 향상시키는 데 효과가 있다는 것을 알 수 있습니다.

계층적 계획 지원
장기 워크플로

의 ACI 전용+체험 학습 설정에서는 계층적 계획이 없는 Agent S의 성능과 관찰된 성능 저하를 보여줍니다.
전체 에이전트 S와 비교했을 때 (26.15% ~ 20.00%) 는 장기 워크플로 모델링에서 계층적 계획이 얼마나 중요한지 잘 보여줍니다.관리자가 하위 작업 계획 단계에서 더 상세하고 정확한 계획을 수립할 수 있기 때문에 경험적 학습이 있는 경우 계층적 공식화의 효과가 두드러집니다.

탐색, 지속적인 메모리 업데이트 및 자체 평가기는 메모리 구성에 없어서는 안될 필수 요소입니다.

탐색을 제거하면 메모리 업데이트가 추론 단계로만 제한됩니다.지속적 메모리 업데이트를 제거한다는 것은 후속 업데이트 없이 탐색 단계에서 얻은 메모리만 사용한다는 의미입니다.자체 평가 도구를 제거하려면 요약된 경험을 원래의 전체 궤적으로 대체해야 합니다.그 결과 지속적인 메모리 업데이트와 자체 지도 탐색 단계를 모두 없애면 성능이 저하되고 자체 지도 탐색이 훨씬 더 큰 영향을 미치는 것으로 나타났습니다.자체 평가기를 없앤 것은 계획을 위한 전체 궤적 예시 대신 요약된 궤적을 사용할 때의 이점을 더욱 잘 보여줍니다.

다른 것으로의 일반화 운영 체제

우리는 작업과 동시에 출시된 Windows OS 벤치마크인 WindowsAgentArena에서 수정 없이 에이전트 S 프레임워크를 테스트합니다.GPT-4o를 MLLM 백본으로, 접근성 트리+이미지를 입력으로 사용하고, OCR을 사용한 구문 분석을 사용하여 유사한 구성을 가진 에이전트 S를 비교합니다.표에서 볼 수 있듯이 에이전트 S는 새로운 Windows 환경에 적응하지 않고도 Navi 에이전트보다 성능이 뛰어납니다.

Results of Successful Rate (%) on WindowsAgentArena using GPT-4o and Image + Accessibility Tree input on the full test set of all 154 test examples

Windows AgentArena에서 GPT-4o 및 Image+ 접근성 트리 입력을 전체적으로 사용한 성공률 (%) 결과
전체 154개의 테스트 예제로 구성된 테스트 세트

빕텍스

@misc {에이전트,

 title= {Agent S: 컴퓨터를 사람처럼 사용하는 개방형 에이전트 프레임워크},

 저자= {사켓 아가쉬*, 주저우 한*, 슈유 간, 지아첸 양, 앙 리, 신 에릭 왕},
연도= {2024},

 인쇄= {},

 아카이브 접두사= {arXiv},

 프라이머리 클래스= {cs.AI}

}

사용할 준비가 되셨나요?
비슷한 방식의 컴퓨터?

기억을 공유하고 정리하고 작업을 개인화하세요.