SimuLang을 소개합니다: 데스크톱 전체를 위한 Playwright
작성자: 앙 리

Simulang이란 무엇인가요?
Simulang은 AI 에이전트가 작성하도록 설계된, 브라우저, 네이티브 앱 및 OS 수준 워크플로우를 자동화하기 위한 스크립팅 언어입니다. 저희는 방금 Simulang을 오픈 소스로 공개했습니다. 지금 단 하나의 명령어로 설치할 수 있습니다:
우리가 Simulang을 만든 이유
AI의 신뢰성을 확보하려면 어색한 현실에 직면해야 합니다. 인간의 언어는 의사소통 능력, 설득력, 감성적인 힘에도 불구하고 언어는 매우 모호하고 실행하기에 끔찍합니다.일상적으로 주고받는 다음과 같은 친숙한 대화를 생각해 보십시오.
Simulang은 이 모든 것을 제어하는 하나의 언어입니다.
Simulang을 통합하는 것: 한 번 작성하고 영원히 재실행
위에서 언급된 기능들은 단 하나의 아키텍처적 결정을 공유합니다. 이 결정이 다른 모든 것을 가능하게 합니다: 확정적 재실행.
이는 제품을 정의하는 두 가지 결과를 가져옵니다.
속도. 각 동작은 50밀리초 미만이 소요됩니다. 이는 로컬 API를 쿼리하고 클릭을 실행하는 데 걸리는 시간입니다. 이미지 캡처, 업로드, 모델 추론이 없습니다. 20단계 워크플로우가 1초 이내에 완료됩니다. 스크린샷 기반 에이전트는 동일한 워크플로우에서 동작당 3~5초가 걸리므로, 대규모에서는 60~100배 더 느립니다.
비용. Simulang 스크립트는 재실행 시 토큰을 전혀 소모하지 않습니다. 스크립트가 처음 작성될 때(또는 Sai가 자연어로부터 스크립트를 생성할 때) LLM 추론에 대한 비용을 지불합니다. 그 이후의 모든 실행은 무료입니다. API 호출도, 클라우드 처리도, 실행당 요금도 없습니다. 매일 수백 개의 자동화된 워크플로우를 실행하는 팀에게 이는 실현 가능성과 엄청난 비용 사이의 차이를 만듭니다. 이는 점진적인 개선이 아닙니다. 픽셀 대신 의미론적 요소, 클라우드 추론 대신 로컬 실행, 확률적 추측 대신 확정적 참조와 같은 올바른 추상화를 선택함으로써 얻어지는 구조적 이점입니다.
Simulang의 기능
인간의 모호성을 코드로 변환하는 것은 에이전트 문제의 절반만 해결합니다.신뢰도 자체는 무질서를 향한 우주의 거침없는 흐름인 엔트로피에 대한 저항의 결과입니다.방은 점점 지저분해지죠.직원들의 사기가 떨어집니다.조직은 인간의 혼란에 질서를 부여하고 불확실성을 예측 가능성으로 바꾸기 위해 존재합니다.코드는 인간의 무질서한 생각을 질서 있고 결정론적인 체계로 바꾸는 도구입니다.a single library and drive the operating system through its accessibility APIs -- the same structured interface that screen readers use.
Simulang 스크립트는 다음을 수행할 수 있습니다:
- 모든 애플리케이션(브라우저, 네이티브 데스크톱 앱, 시스템 대화 상자, 파일 관리자)을 엽니다.
- 접근성 트리를 읽습니다. 모든 버튼, 텍스트 필드, 메뉴 항목 및 레이블이 구조화된 참조 가능한 요소로 노출됩니다.
- 요소 참조를 통해 확정적으로 상호작용합니다(클릭, 입력, 선택, 토글, 스크롤, 확장/축소). 픽셀 좌표가 아닌 요소 참조를 사용합니다.
- 비전으로 대체합니다. 애플리케이션이 접근성 데이터를 노출하지 않을 때, Simulang은 픽셀 수준의 비전 기반 기술을 사용하여 화면에서 요소를 찾습니다.
이는 단일 스크립트가 Chrome을 열고, 양식을 작성하고, Excel로 전환하여 결과를 스프레드시트에 붙여넣은 다음, Slack을 열어 메시지를 보낼 수 있음을 의미합니다. 세 가지 다른 자동화 도구 사이를 전환할 필요 없이 말이죠.
작동 방식: 화면을 보는 두 가지 방법

a16z 제너럴 파트너의 견적
접근성 트리 (빠르고 정확함): OS는 버튼, 텍스트 필드, 메뉴, 레이블 등 모든 UI 요소의 구조화된 트리를 의미론적 역할과 이름과 함께 노출합니다. Simulang은 이 트리를 읽고 각 요소에 참조 ID를 할당하며, 스크립트가 참조를 통해 상호작용하도록 합니다. 응답 시간: 밀리초. 정확도: 확정적입니다.
비전 기반 (불투명한 UI를 위한 대체 수단): 일부 애플리케이션(게임, 사용자 지정 렌더링 캔버스, 접근성이 좋지 않은 Electron 앱)은 유용한 트리를 노출하지 않습니다. 이러한 경우, Simulang은 스크린샷을 찍고 비전 모델을 사용하여 설명에 따라 대상 요소를 찾습니다. 응답 시간: 1-2초. 정확도: 높지만 확률적입니다.
대부분의 실제 자동화는 상호작용의 95%에 접근성 트리를 사용하고 나머지 5%에 대해서는 비전(시각)으로 대체합니다. 스크립트 작성자는 결정할 필요가 없습니다. Simulang이 라우팅을 처리합니다.
Simulang + 코딩 에이전트
Simulang은 독립 실행형 스크립트에만 국한되지 않습니다. GUI와 상호작용해야 하는 AI 코딩 에이전트의 실행 계층 역할을 할 수 있습니다.
Anthropic의 CLI 기반 코딩 에이전트인 Claude Code는 Simulang과 자연스러운 조합입니다. Claude Code는 코드를 작성하고 편집하며, 테스트를 실행하고, 풀 리퀘스트를 생성하지만, 자신이 만든 것을 검증하기 위해 브라우저를 열거나, 결제 흐름을 클릭하여 진행하거나, UI 변경 사항이 올바르게 렌더링되었는지 시각적으로 확인할 수는 없습니다. Simulang이 이 공백을 채워줍니다.
Simulang + Claude Code 통합을 통해 코드 작성부터 검증까지 완전한 루프를 얻을 수 있습니다. Claude Code가 기능을 작성하면 Simulang은 브라우저를 열고, 실제 사용자 경험을 테스트하며, 결과 스크린샷을 캡처하고, 다시 보고합니다. 이 모든 과정이 동일한 세션 내에서 이루어집니다. 코딩 에이전트는 터미널을 처리하고, Simulang은 화면을 처리합니다.
설정은 한 번의 구성 변경으로 완료됩니다.
작동 방식: 화면을 보는 두 가지 방법

워크플로 자동화: "매일 아침 Gmail을 열고, 읽지 않은 인보이스를 찾아 금액을 추출한 다음, Google Sheet에 붙여넣고, #accounting 채널로 Slack 요약을 보냅니다."
QA 및 테스트: "데스크톱 앱을 열고, 설정으로 이동하여 각 환경설정을 변경하고, UI가 올바르게 업데이트되는지 확인한 다음, 실패 시 스크린샷을 찍습니다."
데이터 수집: "LinkedIn을 열고 '샌프란시스코 AI 엔지니어'를 검색하여 처음 50개 프로필을 수집한 다음, CSV로 내보냅니다."
IT 운영: "시스템 환경설정을 열고, FileVault가 활성화되어 있는지 확인하고, 방화벽이 켜져 있는지 확인한 다음, 결과를 규정 준수 대시보드에 기록합니다."
교차 플랫폼 전자상거래 모니터링: "세 개의 브라우저 탭에서 Shopee, Lazada, Amazon을 열고, 20개 SKU에 대한 경쟁사 가격 및 일일 판매 데이터를 수집한 다음, 결과를 Excel 추적 스프레드시트에 붙여넣고, 가격 하락이 있으면 Slack에 알립니다."
소셜 미디어 교차 게시: "완성된 비디오 파일을 가져와 TikTok을 열고 첫 번째 캡션으로 업로드한 다음, Instagram Reels로 전환하여 두 번째 캡션으로 업로드하고, LinkedIn을 열어 세 번째 버전으로 게시한 후, 세 URL 모두를 Google Sheet 콘텐츠 캘린더에 기록합니다."
다중 파일 데스크톱 통합: "Finder를 열고, 월간 보고서 폴더로 이동하여 12개의 Excel 파일을 하나씩 열고, 각 파일에서 요약 행을 복사한 다음, 12개 모두를 마스터 스프레드시트에 붙여넣고, 통합된 파일을 Google Drive에 저장합니다."
이 모든 작업은 여러 애플리케이션과 다양한 UI 화면을 거칩니다. Simulang은 이 모든 것을 단일 스크립트로 처리합니다.
인정
Simulang의 연구는 학계와 엔지니어링 커뮤니티로부터 인정받았습니다:
ICLR 2025 최우수 논문 -- 최고의 머신러닝 컨퍼런스
OSWorld 벤치마크 1위 -- 데스크톱 자동화 에이전트의 표준 평가
Product Hunt 최고 론칭 -- 개발자 커뮤니티의 투표로 선정
지금 시작하기
Simulang을 설치하고 첫 스크립트를 작성하세요:
전체 문서: docs.simular.ai/Simulang
Simulang은 오픈 소스입니다. 라이브러리, CLI, 문서는 모두 GitHub에서 이용 가능합니다.