])

Anthropic은 Claude Cowork를 출시했습니다. 이 기능은 Claude가 스크린샷과 마우스 클릭을 통해 Mac 또는 Windows 데스크톱을 제어할 수 있게 해줍니다. 사용자가 지켜보는 동안 앱을 열고, 양식을 채우고, 메뉴를 탐색할 수 있습니다. 처음 보면 마법처럼 느껴집니다.
그러다 두 아이콘이 비슷하게 생겨서 엉뚱한 버튼을 클릭하는 것을 보게 됩니다. 또는 비전 모델이 다음 스크린샷을 처리하는 동안 각 동작 사이에 4초씩 기다리게 됩니다. 아니면 스크린샷이 해석을 위해 Anthropic 서버로 전송될 때 은행 계좌 정보가 어떻게 되는지 궁금해할 수도 있습니다.
Simulang은 이 세 가지 문제를 모두 해결합니다. 스크린샷 대신 접근성 트리를 읽고, 초 단위가 아닌 밀리초 단위로 실행되며, 전적으로 로컬 머신에서 실행됩니다. 하지만 Cowork도 장점이 있습니다. 특히 화면을 가리키며 "이거 해줘"라고 말하고 싶어 하는 비기술 사용자에게는 더욱 그렇습니다.
저는 동일한 데스크톱 워크플로우에서 두 가지를 모두 테스트했습니다. 솔직한 비교 결과입니다.

Claude Cowork 는 Anthropic의 컴퓨터 사용 기능으로, Claude 데스크톱 앱에서 사용할 수 있습니다. Claude가 스크린샷을 통해 화면을 보고, 마우스를 움직이고, 요소를 클릭하고, 텍스트를 입력할 수 있는 기능을 제공하여 사람이 하는 것처럼 효과적으로 데스크톱을 제어합니다.
상호작용 루프는 다음과 같이 작동합니다. Cowork는 스크린샷을 찍어 Claude의 비전 모델로 보내고, 픽셀에서 UI 요소를 식별하고, 어떤 작업을 수행할지 결정하고, 실행하고, 확인을 위해 다른 스크린샷을 찍고, 이 과정을 반복합니다. 모든 단일 작업은 이 스크린샷-추론-실행 주기를 거칩니다.
Anthropic의 비기술 팀이 지식 작업에 Claude Code를 사용하기 위해 채팅 인터페이스를 우회하기 시작하면서 Cowork가 탄생했습니다. Anthropic은 연구원, 분석가, 운영 팀, 그리고 매일 문서와 데이터를 다루는 모든 사람을 대상으로 동일한 컴퓨터 사용 기능의 간소화된 버전으로 Cowork를 구축했습니다.
가격: Claude Pro(월 $20), Team(좌석당 월 $30), Enterprise 요금제에서 사용할 수 있습니다. 각 작업은 스크린샷 처리 파이프라인을 통해 API 토큰을 소모합니다.

Simulang 은 운영 체제의 접근성 트리를 읽어 데스크톱 애플리케이션을 자동화하는 오픈 소스 JavaScript 라이브러리입니다. 이는 스크린 리더가 사용하는 것과 동일한 구조화된 데이터입니다. 픽셀을 보는 대신, Simulang은 각 UI 요소의 역할 (버튼, 텍스트 필드, 메뉴 항목), 이름, 상태, 정확한 위치를 이해합니다.
JavaScript로 자동화 스크립트를 작성합니다. 이 스크립트는 좌표 추측 대신 정확한 요소 참조를 통해 브라우저, 스프레드시트, 이메일 클라이언트, 터미널 등 모든 데스크톱 애플리케이션과 상호작용합니다. 일단 작성되면, 스크립트는 API 토큰을 소모하지 않고 즉시 재생됩니다.
Simulang은 다음을 지원합니다. Sai, 즉 이를 실행 계층으로 사용하는 AI 에이전트입니다. Sai가 워크플로우를 자동화할 때 내부적으로 Simulang의 접근성 트리를 사용합니다.
가격: Simulang은 무료 오픈 소스입니다. Sai(Simulang 기반 AI 에이전트)는 무료 요금제와 월 $20부터 시작하는 유료 요금제를 제공합니다.
Cowork는 전체 화면을 이미지로 캡처하고, Claude의 컨텍스트 창에 맞게 크기를 줄여 Anthropic 서버로 전송합니다. 비전 모델은 스크린샷을 해석하여 버튼, 메뉴, 텍스트 필드 및 기타 요소를 시각적으로 식별합니다. 그런 다음 클릭할 마우스 좌표를 반환합니다.
이 접근 방식은 본질적인 정확도 한계가 있습니다. 작은 UI 요소, 낮은 대비의 텍스트, 유사하게 생긴 아이콘은 비전 모델을 혼란스럽게 할 수 있습니다. 20개 항목이 있는 드롭다운 메뉴는 각 줄을 읽을 수 있는 사람에게는 명확하지만, 비전 모델에게는 다르게 인식됩니다. Cowork가 잘못 클릭하면, 다시 스크린샷을 찍고 오류를 인지한 후 복구를 시도합니다. 이 과정에서 더 많은 시간과 토큰이 소모됩니다.

Simulang은 운영 체제의 접근성 API(Windows의 UI Automation, macOS의 AXTree)를 쿼리합니다. 이는 기술적으로 화면 밖에 있거나 다른 창 뒤에 숨겨진 요소를 포함하여 화면의 모든 UI 요소에 대한 구조화된 트리를 반환합니다. 각 요소는 역할, 이름, 값, 상태를 포함하며, 별도의 해석이 필요 없습니다.
버튼을 클릭하는 것은 화면상의 위치를 추측하는 것이 아니라 접근성 식별자로 참조하는 것을 의미합니다. 모호함이 없습니다. "제출"이라는 이름의 버튼은 화면 해상도, 글꼴 크기, 다크 모드, 창 위치에 관계없이 항상 "제출"입니다.
모든 Claude Cowork 작업은 다음 파이프라인을 따릅니다.
동작당 총 소요 시간: 3~5초.
시뮬랭의 파이프라인:
동작당 총 소요 시간: 50밀리초 미만.
10단계 워크플로우를 수행하는 데 Cowork는 30~50초가 걸립니다. 시뮬랭은 1초 이내에 완료합니다. 20단계 양식 작성 작업의 경우, 이 문장을 다 읽기도 전에 시뮬랭이 작업을 완료하는 동안 Cowork가 거의 2분 동안 작업하는 것을 지켜보게 될 것입니다.
이것은 미미한 차이가 아닙니다. 단계마다 누적되는 100배의 속도 차이입니다.
Claude Cowork의 정확성은 비전 모델이 각 스크린샷을 얼마나 잘 해석하는지에 전적으로 달려 있습니다. Anthropic은 원래 Computer Use 미리보기 이후 이를 크게 개선했지만, 특정 시나리오에서는 지속적으로 문제가 발생합니다.
Simulang은 이러한 문제가 없습니다. 운영 체제에서 직접 요소 메타데이터를 읽어옵니다. 버튼은 화면에 어떻게 렌더링되든 이름과 위치를 가진 버튼입니다. 접근성 트리에 존재하는 모든 요소에 대해 정확도는 사실상 100%입니다.
단점은 일부 애플리케이션의 접근성 구현이 미흡하다는 것입니다. 게임, 커스텀 렌더링 캔버스, 일부 Electron 앱은 접근성 API를 통해 모든 요소를 노출하지 않을 수 있습니다. 이러한 경우 Simulang은 시각 기반 그라운딩을 대체 수단으로 제공하지만, 기본 상호작용 경로는 항상 구조화된 트리입니다.
Claude Cowork는 실행할 때마다 토큰을 소모합니다. 각 스크린샷은 해상도에 따라 약 1,500~3,000 토큰이며, 각 결정에 대한 추론 토큰이 추가됩니다. 20단계 워크플로는 한 번 실행에 40,000~80,000 토큰을 소모할 수 있습니다.
해당 워크플로를 하루 10번, 한 달에 20일 실행하면 매달 수백만 개의 토큰을 소모하게 됩니다. Pro 플랜을 사용하더라도 사용량을 체감하게 될 것입니다.
Simulang 스크립트는 재생하는 데 비용이 들지 않습니다. 자동화를 한 번 작성하면 추가 비용 없이 영원히 실행됩니다. API 호출도, 토큰 소모도, 사용량 제한도 없습니다. 이는 반복적인 워크플로에 Simulang이 훨씬 더 경제적이라는 것을 의미합니다.
보안에 민감한 팀에게는 이 차이가 매우 중요해집니다.
Claude Cowork는 데스크톱의 전체 스크린샷을 Anthropic 서버로 전송하여 처리합니다. 캡처 순간 화면에 보이는 모든 것 — 비밀번호, 금융 데이터, 기밀 문서, 개인 메시지 — 이 타사 API로 전송됩니다. Anthropic의 데이터 보존 정책이 적용됩니다.
Simulang은 전적으로 로컬 머신에서 실행됩니다. 접근성 트리는 로컬에서 쿼리됩니다. 작업은 로컬에서 실행됩니다. 어떤 데이터도 컴퓨터를 벗어나지 않습니다. 추론 계층에 로컬 LLM과 Simulang을 함께 사용하면 전체 파이프라인이 인터넷과 완전히 분리됩니다.
규제 준수 요구 사항이 있는 산업 — 의료(HIPAA), 금융(SOX), 법률(변호사-의뢰인 특권) — 에서는 이러한 구분이 선호 사항이 아니라 필수 사항입니다.
Cowork는 Simulang이 따라올 수 없는 진정한 장점들을 가지고 있습니다.
코드 없는 상호작용. 원하는 것을 평이한 영어로 설명하면 Cowork가 그 방법을 알아냅니다. 스크립팅도, 설정도, 프롬프트 입력 외에 별다른 학습 곡선도 없습니다. 50개의 PDF를 주제별로 폴더에 정리해야 하는 연구원에게 Cowork는 단 한 줄의 코드도 작성하지 않고 이를 처리합니다.
시각적 이해. Cowork는 접근성 트리가 설명하지 않는 차트, 그래프, 이미지 및 시각적 레이아웃을 해석할 수 있습니다. Claude에게 "이 대시보드를 보고 추세를 요약해 달라"고 요청해야 한다면 Cowork는 이를 수행할 수 있지만, Simulang은 시각적 콘텐츠가 접근성 트리에 없기 때문에 불가능합니다.
대화형 반복 Cowork가 작동하는 것을 지켜보고, 중단하고, 수정 사항을 제공하며, 자연어로 접근 방식을 개선할 수 있습니다. 마치 화면을 볼 수 있는 동료와 페어 워킹하는 것과 같은 상호 작용입니다. Simulang은 동작을 변경하려면 코드를 수정해야 합니다.
광범위한 애플리케이션 지원 Cowork는 스크린샷을 기반으로 작동하기 때문에 맞춤형 내부 도구, 레거시 소프트웨어, 비표준 UI 프레임워크를 사용하는 웹 애플리케이션을 포함하여 픽셀을 렌더링하는 모든 애플리케이션과 상호 작용할 수 있습니다. 접근성 API 구현 품질에 의존하지 않습니다.
Simulang은 Cowork가 복제할 수 없는 구조적 이점을 가지고 있습니다.
프로덕션 수준의 신뢰성 단 한 번의 오클릭 없이 1,000번 실행되어야 하는 자동화가 필요할 때, Simulang의 결정론적 요소 타겟팅이 유일한 옵션입니다. Cowork의 확률적 비전 모델은 결국 대규모로 오류를 범할 것입니다.
속도에 민감한 워크플로 실행 시간이 중요한 모든 워크플로(CI/CD 파이프라인, 실시간 데이터 입력, 고주파 모니터링)는 Simulang의 밀리초 단위 실행이 필요합니다. Cowork의 작업당 수 초의 지연 시간은 시간에 민감한 자동화에는 부적합합니다.
비용에 민감한 운영 매일 수백 개의 자동화된 워크플로를 실행하는 팀은 실행당 지불 방식의 가격 책정을 감당할 수 없습니다. Simulang의 제로 비용 재생은 대규모 자동화를 경제적으로 실행 가능하게 만듭니다.
민감한 환경 데스크톱 스크린샷이 타사 클라우드 서비스로 전송되어서는 안 되는 모든 상황. 정부, 의료, 금융, 법률 분야 및 엄격한 데이터 상주 요구 사항이 있는 모든 조직.
프로그래밍 방식 통합 Simulang 스크립트는 CI/CD 파이프라인에 내장될 수 있으며, 다른 애플리케이션에서 호출될 수 있고, cron 작업을 통해 예약될 수 있으며, 복잡한 다단계 워크플로로 구성될 수 있습니다. Cowork는 Claude 데스크톱 앱의 대화형 세션으로 제한됩니다.