Simular의 에이전트 S가 OSWorld 벤치마크에서 인간을 능가합니다
AI 에이전트는 OSWorld에서 72.6% 에 도달하여 벤치마크의 인간 기준선인 72.36% 를 초과했습니다.
2025년 12월 16일

캘리포니아 주 샌프란시스코 — 자율 컴퓨터 회사인 Simular는 오늘 자사의 개방형 에이전트 프레임워크 Agent S가 다음과 같은 성과를 거두었다고 발표했습니다. 성공률 72.6% ...에 OSWorld, 실제 컴퓨터 작업을 수행하는 멀티모달 에이전트를 평가하기 위한 선도적인 벤치마크입니다.
이 이정표는 Simular의 에이전트를 벤치마크 에이전트보다 높게 만듭니다. 72.36% 의 인간 수준의 성능인간과 같은 신뢰성으로 실제 컴퓨터를 조작하는 AI의 능력에 획기적인 발전을 가져다 주었습니다.
불과 1년 전만 해도 OSWorld의 최고 점수는 약 20% 에 달했습니다.지속적인 발전으로 에이전트 분야 전반의 성과가 빠르게 향상되었습니다.Simular의 Agent S는 인간의 한계를 뛰어넘은 최초의 게임으로, 주로 다음과 같은 스케일링 효과 덕분에 가능했습니다. 행동 베스트 오브 N (BBON), 여러 에이전트를 사용하고 그 중 가장 적합한 에이전트를 선택하여 성능을 향상시키는 방법입니다.
Simular의 CEO이자 공동 설립자인 앙 리 (Ang Li) 는 “컴퓨터 사용 에이전트의 영역이 너무 빠르게 발전하고 있어 우리조차 이러한 혁신이 이렇게 빨리 도래할 것이라고는 예상하지 못했다”고 말했다.“최근까지만 해도 AI가 인간처럼 컴퓨터를 안정적으로 사용할 수 있을지는 확실하지 않았습니다.이 문턱을 넘은 것은 역사적인 순간입니다.이제 우리는 이 기술을 널리 이용할 수 있도록 하여 실제 컴퓨터에서 실제 사람들이 사용할 수 있는 실제 사용 사례를 찾아내는 데 초점을 맞추고 있습니다.”
이 이정표는 펠리시스가 주도한 Simular의 최근 2,150만 달러 규모의 펀딩 라운드에 이어 이루어졌으며 엔비디아의 nVentures, Basis Set Ventures 등이 참여했습니다.또한 Simular는 마이크로소프트의 새로운 제품을 시범 운영하기 위해 선정된 다섯 개의 에이전트 회사 중 하나이기도 합니다. 에이전트용 윈도우 365엔터프라이즈급 AI 자동화를 위해 설계된 안전하고 확장 가능한 환경입니다.
12월에 회사가 출범했습니다. 시뮬러 1.0, 소비자를 위한 최초의 진정한 데스크톱 네이티브 AI 에이전트로, 사람들을 컴퓨터 노동으로부터 완전히 해방시키겠다는 사명을 한 걸음 더 내디뎠습니다.
자세한 내용은 전체 연구 논문 T를 참조하십시오.컴퓨터 사용을 위한 스케일링 에이전트의 불합리한 효과: https://arxiv.org/abs/2510.02250