추천

에이전트 S3: 폭넓은 확장성을 통한 인간 수준의 컴퓨터 사용 접근

2025년 10월 2일

불과 1년 전 OSWorld에서 첫 번째 프레임워크인 Agent S를 20.6% 로 출시한 이후, 우리는 컴퓨터 사용 에이전트의 경계를 꾸준히 발전시켜 왔습니다.에이전트 S2는 최첨단 기술을 48.8% 까지 끌어올렸으며, 이제 에이전트 S3는 성능을 69.9% 까지 끌어올립니다, 인간 수준의 성과는 72% 에 육박합니다.

이 작업 이후 에이전트 S는 계속해서 빠르게 발전했습니다.Simular의 최신 발표에서 에이전트 S는 다음과 같은 성과를 거두었습니다. 오즈월드 성공률 72.6%, 벤치마크를 능가하는 72.36% 휴먼 베이스라인.


에이전트 S3는 에이전트 S2를 기반으로 직접 구축됩니다.프레임워크를 간소화하고 네이티브 코딩 에이전트를 도입하여 OSWorld의 성능을 62.6% 까지 개선하여 새로운 첨단 기술을 선보였습니다.그 외에도 Agent S3에서는 첫 번째 기능을 소개합니다. 컴퓨터 사용 에이전트를 위한 광범위한 프레임워크 를 통해 행동 베스트 오브 N (BBON).BBon은 단일 에이전트 실행에 의존하는 대신 여러 롤아웃 중에서 선택하여 최상의 결과를 선택합니다.이러한 접근 방식은 확장 가능한 성능 향상을 실현하여 정확도를 62.6% 에서 69.9% 로 높이고, 보다 다양한 에이전트 실행으로 확장함으로써 에이전트 프레임워크가 어떻게 개선될 수 있는지를 보여줍니다.

New State-of-the-Art, Near Human-level Performance

*Agent S3 using Behavior Best-of-N

OSWorld에서는 에이전트 S3만 해도 100단계 설정에서 62.6% 에 달하며, 이는 이미 이전 기술인 61.4% 를 능가합니다 (클로드 소넷 4.5).Behavior Best of N이 추가되면서 성능이 69.9% 로 훨씬 더 높아져 컴퓨터 사용 에이전트의 인간 수준의 정확도 (72%) 가 불과 몇 포인트 이내로 향상되었습니다.

환경 전반의 일반화를 위해 에이전트 S3는 Behavior of N (Best-of-N) 을 적용할 때도 크게 개선된 것으로 나타났습니다.Windows 에이전트 아레나에서는 에이전트 S3만 사용하는 경우 정확도가 50.2% 에서 여러 롤아웃 중에서 선택할 경우 56.6% 로 증가합니다.마찬가지로 안드로이드 월드에서도 성능이 68.1% 에서 71.6% 로 향상되었습니다.

CUA 병목 현상: 롱 호라이즌 태스크의 높은 편차

다양한 에이전트가 높은 분산 성공률로 실행됩니다. bbON은 실행을 살펴보고 가장 적합한 에이전트를 선택할 수 있습니다.

컴퓨터 사용 에이전트 (CUA) 는 소프트웨어가 스스로 실행되는 미래를 약속합니다. 티켓을 예약하고, 양식을 작성하고, 앱을 탐색할 필요가 없으니까요.하지만 지금은 아무리 좋은 CUA도 작업이 길고 복잡해지면 어려움을 겪게 됩니다.실수로 클릭하거나, 응답이 늦거나, 예상치 못한 팝업이 발생하면 전체 과정이 순조롭게 진행되지 않을 수 있습니다.작은 실수가 겹쳐지고, 원활한 자동화였어야 할 일이 좌절로 바뀝니다.

이것이 핵심 병목 현상입니다. 높은 편차.같은 요원이 작업을 한 번 완료한 다음 번에는 완전히 망가뜨릴 수도 있습니다.이러한 불일치는 CUA를 예측할 수 없게 만들며, 복잡하고 일상적인 워크플로우에서의 안정성이 여전히 어려운 이유를 보여줍니다.

컴퓨터용 스케일링 에이전트

최고의 동작: 여러 롤아웃을 통한 확장

에이전트 스케일링의 핵심 과제는 강력한 모델을 사용하더라도 단일 실행 롤아웃이 일관되지 않는다는 것입니다.에이전트 S3에 대해 소개합니다. 행동 베스트 오브 N (BBON)여러 롤아웃을 병렬로 실행하고 가장 적합한 롤아웃을 선택하여 이 문제를 해결합니다.

우리의 접근 방식은 사실을 생성하는 것에서 시작됩니다.원시 에이전트 실행에는 많은 양의 단계별 세부 정보가 포함되며, 대부분은 관련이 없거나 중복됩니다.팩트를 생성하여 이러한 잡음이 많은 실행을 각 단계에서 발생한 일에 대한 간결한 설명으로 전환하고 작업의 성공에 직접적으로 중요한 정보에만 초점을 맞춥니다.이러한 사실을 연결하면 에이전트가 각 단계에서 수행한 작업을 명확하게 요약한 행동 내러티브가 생성되므로 상담원 실행을 더 쉽게 해석하고 비교할 수 있습니다.

행동 내러티브를 마련한 후 심판 선택을 적용하여 작업을 가장 잘 완료할 수 있는 롤아웃을 결정합니다.심사위원은 원시 결과를 비교하는 대신 각 행동 서술의 사실에 근거하여 결정을 내립니다.심사 위원은 롤아웃 전반에 걸쳐 이러한 사실을 인용함으로써 어떤 시도가 가장 효과적인지 상대적으로 추론하고 궁극적으로는 최선의 결과를 선정할 수 있습니다.

프레임워크 개선: 설계 단순화, 유연성 향상

에이전트 S2는 계층적 관리자-작업자 설정을 사용했지만 이로 인해 불필요한 오버헤드가 추가되었습니다.Agent S3는 해당 계층 구조를 제거하고 코드를 생성 및 실행할 수 있는 네이티브 코딩 에이전트를 도입하여 프레임워크를 간소화합니다.따라서 코드 및 GUI 작업을 아우르는 솔루션이 더욱 다양해지고 안정성도 향상됩니다.이러한 개선 사항을 종합하면 성능이 약 13% 향상되어 단일 에이전트 성능의 Agent S3가 62.6% 까지 향상되었습니다.

Scaling with Agent Runs

As the number of agent runs increase on OSWorld, we find performance gradually improves. With 10 runs, we achieved highest performance with GPT-5 at 69.9% and with GPT-5 Mini at 60.2%.

휴먼 얼라인먼트

심사위원이 성과를 개선할 수 있는 과제 (OSWorld의 44%) 를 살펴본 결과 심사위원이 과제의 78.4% 에 대해 올바르게 선택한 것으로 나타났습니다.사람의 평가로 다시 한 번 확인한 결과, 92.8% 의 과제에 대해 심사위원이 실제로 옳았으며, OSWorld의 실제 성과는 76.3% 에 가까워졌습니다.이는 우리의 판사가 인간의 선호도에 잘 부합한다는 것을 의미하며, CUA 작업을 평가하는 데 있어 유망한 도구라고 할 수 있습니다.

사용할 준비가 되셨나요?
비슷한 방식의 컴퓨터?

기억을 공유하고 정리하고 작업을 개인화하세요.