])

Codex 대 Simulang: 어떤 AI 에이전트가 컴퓨터를 더 잘 제어할까요?

코딩 에이전트가 코드를 작성할 수는 있습니다. 하지만 경비 보고서를 제출할 수 있을까요? 데스크톱 앱을 열 수 있을까요? 로그인 장벽 뒤에 있는 양식을 작성할 수 있을까요?

이것이 바로 AI 툴링의 최신 카테고리인 '컴퓨터 사용 에이전트'를 이끄는 질문입니다. OpenAI의 Codex는 이제 에이전트가 화면을 보고 스크린샷과 마우스 클릭을 통해 애플리케이션과 상호 작용할 수 있도록 하는 컴퓨터 사용 기능을 포함합니다. Simular의 Simulang은 근본적으로 다른 접근 방식을 취합니다. 운영 체제의 접근성 트리를 읽고 LLM 개입 없이 재생되는 결정론적 스크립트를 작성합니다.

저는 동일한 데스크톱 자동화 작업 세트에서 두 가지를 모두 테스트했습니다. 제가 발견한 내용과 언제 어떤 것을 선택해야 하는지 알려드리겠습니다.

Codex란 무엇인가요?

Codex는 OpenAI의 AI 에이전트 플랫폼입니다. 2021년 코드 생성 모델로 처음 출시된 Codex는 코드를 작성하고, 터미널 명령을 실행하고, 웹을 탐색하며, 최신 업데이트를 통해 컴퓨터 사용 기능을 통해 데스크톱 애플리케이션을 제어할 수 있는 완전한 기능을 갖춘 에이전트로 발전했습니다.

컴퓨터 사용 기능은 사용자 화면의 스크린샷을 찍어 비전 모델로 전송하고 마우스/키보드 동작을 반환하는 방식으로 작동합니다. 에이전트는 사용자가 보는 것, 즉 픽셀 그리드를 보고 어디를 클릭하고, 무엇을 입력하고, 언제 스크롤할지 결정합니다.

Codex는 기본적으로 클라우드 샌드박스에서 실행됩니다. 컴퓨터 사용 기능은 플러그인 아키텍처를 통해 이를 로컬 데스크톱으로 확장합니다.

Simulang이란 무엇인가요?

Simulang 은 브라우저, 네이티브 앱 및 OS 수준 워크플로우를 자동화하기 위한 스크립팅 언어입니다. 오픈 소스이며, 다음을 통해 설치됩니다.

‍npm install -g @simular-ai/simulang

그리고 운영 체제의 접근성 API를 통해 애플리케이션과 상호 작용하는 TypeScript 스크립트를 생성합니다. Simulang은 다음에서 제작 및 지원합니다. Simular.

스크린샷을 보는 대신, Simulang은 접근성 트리를 읽습니다. — VoiceOver 및 JAWS와 같은 화면 판독기가 사용하는 것과 동일한 구조화된 인터페이스입니다. 모든 버튼, 텍스트 필드, 메뉴 항목 및 레이블은 이름이 지정되고 참조 가능한 요소로 노출됩니다. 스크립트는 픽셀 좌표가 아닌 참조를 통해 상호 작용합니다.

Simulang은 설계되었습니다. 코딩 에이전트의 출력 형식이 됩니다. Claude Code, Cursor 또는 모든 LLM 기반 코딩 도구는 Simulang 스크립트를 한 번 작성할 수 있으며, 해당 스크립트는 결정론적으로 재생되므로 런타임에 LLM이 필요하지 않습니다.

How we evaluated

Simulang은 청사진을 읽고, Codex는 사진을 봅니다

이것이 핵심적인 아키텍처 차이이며, 모든 후속 작업에 영향을 미칩니다.

Codex 컴퓨터 사용 스크린샷(일반적으로 1920x1080 픽셀)을 찍어 비전 모델로 전송한 다음 "제출 버튼이 어디에 있나요?"라고 묻습니다. 모델은 좌표를 반환하고, Codex는 해당 좌표로 마우스를 이동하여 클릭합니다.

이 접근 방식에는 세 가지 문제가 있습니다.

  1. 해상도 의존성: 창 크기가 조정되면 좌표가 변경됩니다. OS 배율이 변경되면 좌표가 변경됩니다. 대화 상자가 나타나 레이아웃을 변경하면 좌표가 잘못됩니다.
  2. 모호성: 동일하게 보이지만 목적이 다른 두 개의 버튼(예: 중첩된 대화 상자의 두 "저장" 버튼)은 픽셀만으로는 구별할 수 없습니다.
  3. 속도: 각 작업에는 전체 스크린샷, 비전 모델 추론(500ms-2초) 및 응답이 필요합니다. 10단계 워크플로는 순수 추론 시간만 10-20초가 걸립니다.

Simulang 접근성 트리를 읽고 각 요소에 안정적인 참조 ID를 할당합니다. 스크립트는 다음과 같이 말합니다. tree.activate("ref_42") — "(847, 312) 픽셀 클릭"이 아닙니다. 창이 이동해도 참조는 여전히 유효합니다. OS 배율이 변경되어도 참조는 여전히 유효합니다. 대화 상자가 나타나면 Simulang은 새 트리를 읽고 의미론적 ID로 요소를 찾습니다.

작업당 응답 시간: 밀리초. 10단계 워크플로는 1초 이내에 완료됩니다.

Simulang 스크립트는 LLM 없이 실행되지만, Codex는 모든 작업에 LLM이 필요합니다.

이 차이가 비용과 신뢰성을 모두 결정합니다.

Codex 컴퓨터 사용 모든 상호작용에 LLM 호출이 필요합니다. 메뉴를 열 때: LLM 호출. 버튼을 클릭할 때: LLM 호출. 필드에 입력할 때: LLM 호출. 각 호출은 토큰 비용을 발생시키고, 지연 시간을 추가하며, 오해석의 가능성을 높입니다. 동일한 워크플로우를 100번 실행하면, 100 x N번의 LLM 호출 비용을 지불하게 됩니다 (여기서 N은 단계 수).

Simulang 스크립트 작성 시점에 LLM을 단 한 번만 사용합니다. 코딩 에이전트(Claude Code, Cursor 등)가 Simulang 스크립트를 작성하며, 그 시점부터 스크립트는 결정론적으로 실행됩니다. 100번 실행해도 추가 LLM 호출 비용은 0입니다.

비용 차이는 미미하지 않습니다. 주 5일 실행되는 20단계 일일 워크플로우의 경우:

  • Codex: 20단계 x 5일 x 4주 = 월 400회 LLM 호출. 호출당 약 $0.01-0.03 (비전 모델 가격 기준)으로, 단일 자동화에 월 $4-12가 소요됩니다.
  • Simulang: 스크립트 작성에 LLM 호출 1회 + 실행 비용 $0. 총: $0.03-0.10, 1회.

Simulang은 브라우저와 네이티브 앱을 모두 제어합니다. Codex 컴퓨터 사용은 모든 것의 스크린샷을 통해 작동합니다.

두 도구 모두 화면에 나타나는 모든 애플리케이션과 상호작용할 수 있습니다. 하지만 작동 방식은 다릅니다.

Codex 는 설계상 애플리케이션에 구애받지 않습니다. 픽셀로 보이는 것이라면 무엇이든 Codex가 상호작용을 시도할 수 있습니다. 이는 API, 접근성 지원, 자동화 훅이 없는 애플리케이션에 진정으로 유용합니다. 레거시 엔터프라이즈 소프트웨어, 사용자 정의 렌더링 캔버스, 원격 데스크톱 세션 등 모두 해당됩니다.

Simulang 은 브라우저를 네이티브로 처리하며 (Playwright 스타일 접근성 API를 통해) 접근성 데이터를 노출하는 모든 네이티브 애플리케이션으로 확장됩니다. 여기에는 사실상 모든 표준 macOS, Windows, Linux 애플리케이션이 포함됩니다. 접근성 데이터를 노출하지 않는 드문 애플리케이션의 경우, Simulang은 비전 기반으로 전환하여 스크린샷을 찍고 비전 모델을 사용하여 대상 요소를 찾습니다.

실질적인 차이점은 다음과 같습니다. Simulang은 상호작용의 95%에 대해 빠르고 결정론적인 경로(접근성 트리)를 사용하고, 나머지 5%에 대해서는 느리고 확률적인 경로(비전)를 사용합니다. Codex는 모든 상호작용에 대해 느리고 확률적인 경로를 사용합니다.

Codex는 클라우드 샌드박스에서 실행됩니다. Simulang은 사용자 기기에서 실행됩니다.

Codex 기본적으로 클라우드 VM에서 작동합니다. 귀하의 코드, 파일 및 자격 증명은 OpenAI의 인프라에 업로드됩니다. 컴퓨터 사용 플러그인은 Codex를 로컬 데스크톱으로 확장하지만, 핵심 아키텍처는 클라우드 우선입니다.

Simulang 전적으로 로컬 머신에서 실행됩니다. 스크립트는 실제 데스크톱(브라우저 세션, 로그인된 애플리케이션, 파일 시스템)에서 실행됩니다. 아무것도 업로드되지 않습니다. 스크립트가 명시적으로 데이터를 어딘가로 보내지 않는 한, 어떤 것도 귀하의 머신을 벗어나지 않습니다.

규정 준수 요구 사항(SOC 2, HIPAA, 금융 규제)이 있는 기업의 경우, 로컬 실행은 종종 필수적입니다. 인증된 세션(이메일, 뱅킹, 내부 도구)과 관련된 워크플로우를 자동화하려는 개별 개발자에게 로컬 실행은 자격 증명 공유가 없음을 의미합니다.

Comparison Summary

Dimension Codex Computer Use Simulang
Best for Non-technical users wanting natural language desktop control Developers building repeatable, production-grade automations
How it works Screenshots + vision model per action Accessibility tree + deterministic scripts
Perception Pixel-level (screenshots) Semantic (accessibility tree) + vision fallback
Speed per action 2-4 seconds (LLM inference) ~50 milliseconds (local tree read)
LLM at runtime Required for every action Not required (scripts replay deterministically)
Scope Anything visible as pixels Browsers + native apps + system dialogs
Execution Cloud sandbox (with local plugin option) Local machine only
Data privacy Screenshots sent to OpenAI servers Everything runs locally, nothing uploaded
Cost per run $0.01-0.03 per action (token costs) $0 (after initial script authoring)
Pricing ChatGPT Pro $200/month or API pay-per-use Free and open source
Open source Partially (Codex CLI is open source) Yes (fully open source)

Codex 컴퓨터 사용이 진정으로 더 나은 점

공정성이 중요합니다. 여기에 Codex의 진정한 장점이 있습니다:

  • 비기술 사용자를 위한 제로 설정: Codex의 스크린샷 방식은 접근성 트리, 참조 또는 스크립팅에 대한 이해를 요구하지 않습니다. 자연어로 원하는 것을 설명하면 에이전트가 시도합니다. Simulang은 스크립트를 작성(또는 생성)해야 합니다.
  • 원격 데스크톱 및 VM에서 작동: Codex는 화면에 픽셀로 표시되는 원격 데스크톱 세션을 제어할 수 있습니다. Simulang은 접근성 API에 대한 로컬 OS 수준의 접근을 필요로 하는데, 원격 데스크톱 프로토콜은 일반적으로 이를 노출하지 않습니다.
  • 통합 코딩 환경: Codex는 터미널 접근, 파일 편집 및 코드 실행 기능을 갖춘 완전한 기능을 제공하는 코딩 에이전트입니다. Simulang은 데스크톱 자동화 프레임워크이며, 애플리케이션 코드를 작성하지 않습니다.
  • 애플리케이션 독립적: 픽셀로 렌더링되는 것이라면, Codex는 그것과 상호작용을 시도할 수 있습니다. 레거시 엔터프라이즈 소프트웨어, 사용자 지정 렌더링 캔버스, 접근성 지원이 전혀 없는 독점 앱을 포함해서 말이죠.

Simulang이 진정으로 더 나은 점

  • 속도: 각 Simulang 작업은 약 50밀리초(접근성 트리 읽기)가 소요됩니다. 각 Codex 작업은 2-4초(스크린샷 + 비전 모델 추론)가 소요됩니다. Simulang에서 15단계 워크플로우는 1초 이내에 완료되지만, Codex에서는 동일한 워크플로우에 30-60초가 걸립니다.
  • 신뢰성: Simulang은 픽셀 좌표가 아닌 의미론적 참조를 통해 상호작용합니다. 창 크기가 조정되거나, 대화 상자가 팝업되거나, OS 스케일링이 변경되어도 참조는 여전히 유효합니다. Codex의 좌표는 레이아웃이 변경되면 깨집니다.
  • 대규모 비용: Simulang 스크립트는 초기 작성 후 실행당 비용이 $0입니다. Codex는 모든 실행의 모든 동작에 대해 LLM 호출이 필요합니다. 20단계 일일 워크플로는 Codex에서 월 $4-12가 들지만, Simulang에서는 한 번에 $0.05입니다.
  • 개인 정보 보호 및 규정 준수: Simulang은 전적으로 로컬 머신에서 실행됩니다. 스크린샷이 컴퓨터를 벗어나지 않으며, 자격 증명이 공유되지 않습니다. Codex는 비전 모델 처리를 위해 스크린샷을 OpenAI 클라우드로 전송합니다.
  • 크로스 플랫폼: Simulang은 현재 macOS, Windows, Linux를 지원합니다. Codex Computer Use 지원은 플랫폼 및 플러그인 가용성에 따라 다릅니다.
  • 네이티브 앱 제어: Simulang은 동일한 접근성 API를 통해 브라우저와 네이티브 데스크톱 앱(Excel, Slack, Finder, 이메일 클라이언트, 시스템 대화 상자)을 구동합니다. Codex는 모든 것을 픽셀로 처리합니다. 기능적이지만, 클릭하는 대상에 대한 의미론적 이해는 없습니다.
  • 결정론적 재현: 오늘 작성된 Simulang 스크립트는 LLM 개입 없이 내일, 다음 주, 다음 달에도 동일하게 실행됩니다. Codex는 모든 실행에서 화면을 재해석해야 하므로 각 실행에서 가변성이 발생합니다.

가격

Codex

Simulang

  • 오픈 소스, 무료 설치 및 사용
  • 동작당 비용 없음 — 스크립트가 LLM 호출 없이 로컬에서 실행됩니다.
  • LLM 비용은 스크립트 작성 시에만 발생합니다 (자체 Claude Code, Cursor 또는 Copilot 구독 사용).

Codex vs. Simulang: 무엇을 선택해야 할까요?

Codex를 선택해야 하는 경우:

  • 데스크톱도 제어할 수 있는 범용 AI 코딩 에이전트를 원합니다.
  • 스크립팅보다 자연어 지시를 선호합니다.
  • 원격 데스크톱 세션 또는 VM을 자동화해야 합니다.
  • 이미 OpenAI/ChatGPT 생태계에 있습니다.

Simulang을 선택해야 하는 경우:

  • 지속적인 LLM 비용 없이 실행되는 확정적이고 반복 가능한 데스크톱 자동화가 필요합니다.
  • 브라우저와 네이티브 데스크톱 앱 모두에서 워크플로우를 자동화하고 싶습니다.
  • 속도를 중요하게 생각합니다 — 밀리초 단위 응답 시간 vs. 동작당 초 단위.
  • 규정 준수 또는 자격 증명 보안을 위해 로컬 실행이 필요합니다.
  • 코딩 에이전트(Claude Code, Cursor)가 넘겨줄 수 있는 자동화 스크립트를 작성하기를 원합니다.

프로덕션 자동화 워크플로우를 구축하는 대부분의 개발자에게 Simulang은 더 실용적인 선택입니다. 스크립트를 한 번 작성하고, 영원히 실행하며, 실행당 비용을 지불하지 않습니다. AI를 화면에 가리키고 "이것을 해"라고 말하고 싶은 임시 데스크톱 작업의 경우, Codex Computer Use가 시작하기에 더 빠릅니다.

두 도구는 상호 배타적이지 않습니다. Codex (또는 Claude Code, Cursor)를 사용하여 Simulang 스크립트를 작성할 수 있으며, 이는 두 가지 장점을 모두 얻는 것입니다. 즉, 작성 시 LLM 인텔리전스와 런타임 시 확정적 실행을 모두 누릴 수 있습니다.

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai

FAQS

})