])

코딩 에이전트가 코드를 작성할 수는 있습니다. 하지만 경비 보고서를 제출할 수 있을까요? 데스크톱 앱을 열 수 있을까요? 로그인 장벽 뒤에 있는 양식을 작성할 수 있을까요?
이것이 바로 AI 툴링의 최신 카테고리인 '컴퓨터 사용 에이전트'를 이끄는 질문입니다. OpenAI의 Codex는 이제 에이전트가 화면을 보고 스크린샷과 마우스 클릭을 통해 애플리케이션과 상호 작용할 수 있도록 하는 컴퓨터 사용 기능을 포함합니다. Simular의 Simulang은 근본적으로 다른 접근 방식을 취합니다. 운영 체제의 접근성 트리를 읽고 LLM 개입 없이 재생되는 결정론적 스크립트를 작성합니다.
저는 동일한 데스크톱 자동화 작업 세트에서 두 가지를 모두 테스트했습니다. 제가 발견한 내용과 언제 어떤 것을 선택해야 하는지 알려드리겠습니다.

Codex는 OpenAI의 AI 에이전트 플랫폼입니다. 2021년 코드 생성 모델로 처음 출시된 Codex는 코드를 작성하고, 터미널 명령을 실행하고, 웹을 탐색하며, 최신 업데이트를 통해 컴퓨터 사용 기능을 통해 데스크톱 애플리케이션을 제어할 수 있는 완전한 기능을 갖춘 에이전트로 발전했습니다.
컴퓨터 사용 기능은 사용자 화면의 스크린샷을 찍어 비전 모델로 전송하고 마우스/키보드 동작을 반환하는 방식으로 작동합니다. 에이전트는 사용자가 보는 것, 즉 픽셀 그리드를 보고 어디를 클릭하고, 무엇을 입력하고, 언제 스크롤할지 결정합니다.
Codex는 기본적으로 클라우드 샌드박스에서 실행됩니다. 컴퓨터 사용 기능은 플러그인 아키텍처를 통해 이를 로컬 데스크톱으로 확장합니다.

Simulang 은 브라우저, 네이티브 앱 및 OS 수준 워크플로우를 자동화하기 위한 스크립팅 언어입니다. 오픈 소스이며, 다음을 통해 설치됩니다.
npm install -g @simular-ai/simulang그리고 운영 체제의 접근성 API를 통해 애플리케이션과 상호 작용하는 TypeScript 스크립트를 생성합니다. Simulang은 다음에서 제작 및 지원합니다. Simular.
스크린샷을 보는 대신, Simulang은 접근성 트리를 읽습니다. — VoiceOver 및 JAWS와 같은 화면 판독기가 사용하는 것과 동일한 구조화된 인터페이스입니다. 모든 버튼, 텍스트 필드, 메뉴 항목 및 레이블은 이름이 지정되고 참조 가능한 요소로 노출됩니다. 스크립트는 픽셀 좌표가 아닌 참조를 통해 상호 작용합니다.
Simulang은 설계되었습니다. 코딩 에이전트의 출력 형식이 됩니다. Claude Code, Cursor 또는 모든 LLM 기반 코딩 도구는 Simulang 스크립트를 한 번 작성할 수 있으며, 해당 스크립트는 결정론적으로 재생되므로 런타임에 LLM이 필요하지 않습니다.
이것이 핵심적인 아키텍처 차이이며, 모든 후속 작업에 영향을 미칩니다.
Codex 컴퓨터 사용 스크린샷(일반적으로 1920x1080 픽셀)을 찍어 비전 모델로 전송한 다음 "제출 버튼이 어디에 있나요?"라고 묻습니다. 모델은 좌표를 반환하고, Codex는 해당 좌표로 마우스를 이동하여 클릭합니다.
이 접근 방식에는 세 가지 문제가 있습니다.
Simulang 접근성 트리를 읽고 각 요소에 안정적인 참조 ID를 할당합니다. 스크립트는 다음과 같이 말합니다. tree.activate("ref_42") — "(847, 312) 픽셀 클릭"이 아닙니다. 창이 이동해도 참조는 여전히 유효합니다. OS 배율이 변경되어도 참조는 여전히 유효합니다. 대화 상자가 나타나면 Simulang은 새 트리를 읽고 의미론적 ID로 요소를 찾습니다.
작업당 응답 시간: 밀리초. 10단계 워크플로는 1초 이내에 완료됩니다.
이 차이가 비용과 신뢰성을 모두 결정합니다.

Codex 컴퓨터 사용 모든 상호작용에 LLM 호출이 필요합니다. 메뉴를 열 때: LLM 호출. 버튼을 클릭할 때: LLM 호출. 필드에 입력할 때: LLM 호출. 각 호출은 토큰 비용을 발생시키고, 지연 시간을 추가하며, 오해석의 가능성을 높입니다. 동일한 워크플로우를 100번 실행하면, 100 x N번의 LLM 호출 비용을 지불하게 됩니다 (여기서 N은 단계 수).
Simulang 스크립트 작성 시점에 LLM을 단 한 번만 사용합니다. 코딩 에이전트(Claude Code, Cursor 등)가 Simulang 스크립트를 작성하며, 그 시점부터 스크립트는 결정론적으로 실행됩니다. 100번 실행해도 추가 LLM 호출 비용은 0입니다.
비용 차이는 미미하지 않습니다. 주 5일 실행되는 20단계 일일 워크플로우의 경우:

두 도구 모두 화면에 나타나는 모든 애플리케이션과 상호작용할 수 있습니다. 하지만 작동 방식은 다릅니다.
Codex 는 설계상 애플리케이션에 구애받지 않습니다. 픽셀로 보이는 것이라면 무엇이든 Codex가 상호작용을 시도할 수 있습니다. 이는 API, 접근성 지원, 자동화 훅이 없는 애플리케이션에 진정으로 유용합니다. 레거시 엔터프라이즈 소프트웨어, 사용자 정의 렌더링 캔버스, 원격 데스크톱 세션 등 모두 해당됩니다.
Simulang 은 브라우저를 네이티브로 처리하며 (Playwright 스타일 접근성 API를 통해) 접근성 데이터를 노출하는 모든 네이티브 애플리케이션으로 확장됩니다. 여기에는 사실상 모든 표준 macOS, Windows, Linux 애플리케이션이 포함됩니다. 접근성 데이터를 노출하지 않는 드문 애플리케이션의 경우, Simulang은 비전 기반으로 전환하여 스크린샷을 찍고 비전 모델을 사용하여 대상 요소를 찾습니다.
실질적인 차이점은 다음과 같습니다. Simulang은 상호작용의 95%에 대해 빠르고 결정론적인 경로(접근성 트리)를 사용하고, 나머지 5%에 대해서는 느리고 확률적인 경로(비전)를 사용합니다. Codex는 모든 상호작용에 대해 느리고 확률적인 경로를 사용합니다.
Codex 기본적으로 클라우드 VM에서 작동합니다. 귀하의 코드, 파일 및 자격 증명은 OpenAI의 인프라에 업로드됩니다. 컴퓨터 사용 플러그인은 Codex를 로컬 데스크톱으로 확장하지만, 핵심 아키텍처는 클라우드 우선입니다.
Simulang 전적으로 로컬 머신에서 실행됩니다. 스크립트는 실제 데스크톱(브라우저 세션, 로그인된 애플리케이션, 파일 시스템)에서 실행됩니다. 아무것도 업로드되지 않습니다. 스크립트가 명시적으로 데이터를 어딘가로 보내지 않는 한, 어떤 것도 귀하의 머신을 벗어나지 않습니다.
규정 준수 요구 사항(SOC 2, HIPAA, 금융 규제)이 있는 기업의 경우, 로컬 실행은 종종 필수적입니다. 인증된 세션(이메일, 뱅킹, 내부 도구)과 관련된 워크플로우를 자동화하려는 개별 개발자에게 로컬 실행은 자격 증명 공유가 없음을 의미합니다.
공정성이 중요합니다. 여기에 Codex의 진정한 장점이 있습니다:
프로덕션 자동화 워크플로우를 구축하는 대부분의 개발자에게 Simulang은 더 실용적인 선택입니다. 스크립트를 한 번 작성하고, 영원히 실행하며, 실행당 비용을 지불하지 않습니다. AI를 화면에 가리키고 "이것을 해"라고 말하고 싶은 임시 데스크톱 작업의 경우, Codex Computer Use가 시작하기에 더 빠릅니다.
두 도구는 상호 배타적이지 않습니다. Codex (또는 Claude Code, Cursor)를 사용하여 Simulang 스크립트를 작성할 수 있으며, 이는 두 가지 장점을 모두 얻는 것입니다. 즉, 작성 시 LLM 인텔리전스와 런타임 시 확정적 실행을 모두 누릴 수 있습니다.