AI 에이전트는 이제 단순히 질문에 답하는 존재를 넘어 시스템을 제어하고 행동하는 실행 주체로 진화하고 있습니다. 그러나 우리가 익숙한 대부분의 AI 서비스는 여전히 클라우드 중심 구조에 머물러 있습니다. 데이터는 외부 서버로 전송되고, 모델은 원격에서 실행되며, 사용자는 결과를 받아봅니다.

OpenClaw(전 Clawdbot, Moltbot)은 이 흐름과는 다른 선택을 한 프로젝트입니다. 이 프로젝트는 로컬 우선 구조를 기반으로, 사용자의 PC에서 직접 실행되는 AI 에이전트 플랫폼입니다. 따라서 OpenClaw는 단순한 챗봇이 아니라 “사용자의 컴퓨터와 일상 디지털 환경을 이해하고 행동하는 AI 시스템”으로 정의할 수 있습니다.

OpenClaw는 오스트리아 출신 소프트웨어 엔지니어인 페터 슈타인베르거(Peter Steinberger)가 개발한 자율형 AI 에이전트 오픈소스 프로젝트인데요. 그는 iOS 개발 생태계에서 널리 알려진 개발자이며 최근 OpenAI에 합류하면서 다시 한번 업계의 주목받았습니다.

이 글에서는 OpenClaw의 구조, 설치 방법, 실제 활용 사례를 알아보고자 합니다.

OpenClaw는 클라우드 중심 AI와 달리, 사용자 PC에서 직접 실행되는 로컬 기반 실행형 AI 에이전트 플랫폼입니다.
게이트웨이 중심 hub-and-spoke 아키텍처와 WebSocket 컨트롤 플레인을 통해 다양한 메시징 채널과 연결됩니다.
도구와 스킬 구조를 활용해 파일, 브라우저, 쉘, 메시지 시스템까지 제어하는 행동하는 AI를 구현합니다.
업무 자동화뿐 아니라 일상생활까지 확장되는 로컬 AI 비서 모델을 제시하며, 향후 AI 아키텍처 전환의 방향성을 보여줍니다.

OpenClaw가 강조하는 핵심은 다음과 같습니다.

첫째, 로컬 실행입니다. AI가 사용자의 PC 안에서 동작합니다. 두뇌 역할을 하는 LLM을 OpenAI나 Gemini API 등, 상용 API로 연결할 경우를 제외한다면, 데이터는 기본적으로 외부로 전송되지 않으며, 로컬 환경에서 처리됩니다.

둘째, 확장 가능한 아키텍처입니다. 다양한 채널과 도구를 연결할 수 있는 구조를 가지고 있습니다.

셋째, 일상 자동화 중심 철학입니다. 공식 튜토리얼과 예제 역시 복잡한 엔터프라이즈 시나리오보다는 “내 일상을 도와주는 AI”에 초점을 맞추고 있습니다.

이 점이 중요한 이유는 명확합니다. 많은 AI 플랫폼이 기업용 SaaS를 중심으로 설계되는 반면, OpenClaw는 개인 단말기 중심의 실행형 AI라는 정체성을 분명히 하고 있기 때문입니다.

OpenClaw의 핵심 아키텍처

OpenClaw의 내부 구조는 크게 다음과 같은 구성 요소로 이루어져 있습니다.

게이트웨이: 컨트롤 플레인

OpenClaw의 중심에는 게이트웨이가 있습니다. 이 게이트웨이는 전체 시스템의 컨트롤 플레인 역할을 하며, hub-and-spoke 아키텍처를 따릅니다.

허브 역할을 하는 게이트웨이는 다음 기능을 수행합니다.

메시지 라우팅
세션 및 상태 관리
채널과 에이전트 연결 유지
WebSocket 기반 실시간 통신

WebSocket을 사용하는 이유는 지속적인 세션 유지와 이벤트 기반 양방향 통신이 필요하기 때문입니다. 에이전트 실행 과정에서는 도구 호출, 상태 업데이트, 메시지 스트리밍 등의 이벤트가 지속적으로 발생하기 때문에 HTTP 요청 및 응답 모델보다 WebSocket 기반 통신이 더 적합합니다. 일반 챗봇과 차이가 있는 결정적 이유는 영구적인 기억(Persistent Memory)에 있습니다. OpenClaw는 사용자와의 대화 기록이나 취향, 시스템 상태를 로컬의 마크다운 파일(예: MEMORY.md) 형태로 저장하고, 필요할 때 RAG(검색 증강 생성) 방식으로 과거의 컨텍스트를 불러옵니다.

채널: 메시징 플랫폼 인터페이스

OpenClaw는 다양한 채널과 연결됩니다. 공식 문서에 따르면 Telegram, Slack, Discord, WhatsApp 등의 메시징 채널을 지원하며 커뮤니티에서는 추가 채널 플러그인도 등장하고 있습니다. 채널은 단순한 메시지 수신 창이 아니라, 로컬 AI 에이전트를 제어하는 인터페이스입니다. 사용자는 익숙한 채팅 앱을 통해 OpenClaw에게 명령을 내릴 수 있습니다.

이 구조는 협업 도구와 AI 실행 엔진을 결합하는 모델입니다. 조직 내 채팅 플랫폼이 곧 AI 콘솔이 되는 구조입니다.

에이전트와 에이전트 러너

에이전트(Agent)는 워크스페이스, 세션 히스토리, 모델 설정, 정책 등을 포함하는 논리적 단위로, AI의 기억과 성격을 정의하는 계층입니다. 즉, AI의 기억과 성격을 정의하는 계층입니다. 에이전트 러너(Agent Runner)는 실제 LLM 실행과 도구 호출을 담당합니다. 이를 통해 정책과 실행이 분리됩니다. 이 구조는 보안 통제와 확장성을 동시에 확보하는 데 유리합니다.

도구와 스킬: 실행형 AI의 핵심

OpenClaw의 진짜 강점은 단순히 대화를 잘하는 데 있지 않습니다. 이 플랫폼의 핵심은 AI가 텍스트를 생성하는 수준을 넘어, 실제 행동을 수행하도록 설계되어 있다는 점입니다. 그리고 그 중심에는 '도구'와 '스킬'이라는 구조가 있습니다.

많은 생성형 AI는 모델이 답을 만들어내는 것에서 멈춥니다. 그러나 실제 업무나 일상 자동화에서는 답변이 아니라 행동이 필요합니다. 파일을 정리하고, 브라우저를 열고, 명령을 실행하고, 메시지를 전송하는 일 말입니다. OpenClaw는 이를 위해 도구를 통해 시스템과 직접 연결하고, 스킬을 통해 그 도구들을 조합해 목적 중심의 작업 흐름을 구성합니다.

즉, 도구가 개별 실행 기능이라면, 스킬은 그 기능을 묶어 하나의 완결된 행동 단위로 만드는 구조입니다. 이 두 계층이 결합되면서 단순한 대화형 AI를 넘어, 실제 환경에서 움직이는 실행형 AI로 확장됩니다.

도구

도구(tool)는 AI가 외부 환경과 상호작용할 수 있도록 하는 실행 인터페이스입니다. API 호출뿐 아니라 로컬 파일 시스템, 브라우저 자동화, 쉘 명령 실행 등 다양한 시스템 리소스와 연결됩니다.

웹 브라우징 및 자동화: 웹사이트에 접속하여 정보를 검색하거나, 버튼을 클릭하고, 양식을 작성
데이터 처리 및 파일 조작: 로컬 파일을 읽고 쓰거나, 데이터를 분석하여 결과물을 생성
API 연동: 외부 API를 호출하여 실시간 데이터를 가져오거나 메시지를 전송
컴퓨터 제어 : 마우스 커서 이동, 키보드 입력 등 운영체제(OS) 수준에서의 작업을 자동화

도구가 중요한 이유는 AI 모델(LLM) 자체는 학습된 데이터 범위 내에서만 답을 생성하는 ‘두뇌’에 불과하기 때문입니다. OpenClaw의 도구들과 결합될 때 비로소 실제 행동을 수행하는 진짜 AI 에이전트가 됩니다.

시장 조사 에이전트: "최신 AI 뉴스 5개를 찾아서 요약 보고서를 PDF로 만들어줘."
워크플로 자동화: "이메일로 온 영수증들을 정리해서 엑셀 파일에 입력해 줘."

스킬

스킬(Skills)은 앞서 설명한 도구보다 한 단계 더 진화한 개념으로, AI 에이전트가 특정 목적을 달성하기 위해 보유한 '숙련된 능력치' 또는 '실행 가능한 함수들의 집합'을 의미합니다. 현대 AI 에이전트 아키텍처에서 function composition 또는 workflow abstraction에 해당하는 개념입니다. 즉 여러 도구 호출을 하나의 목적 중심 작업으로 묶는 실행 템플릿 역할을 합니다.

스킬을 사용하여 에이전트의 행동 양식을 결정하며, 여러 스킬들을 조합하여 복잡한 태스크를 해결합니다. 예를 들어 브라우저에서 웹 페이지를 열고, 스크롤하고, 요소를 클릭하며 정보를 수집하는 능력이나, 명령 프롬프트나 터미널에서 명령어를 실행하여 프로그램을 설치하거나 코드를 구동하고, 파일을 생성, 수정, 삭제하거나 디렉터리 구조를 파악하는 등의 스킬이 대표적입니다.

스킬은 OpenClaw가 기본적으로 built-in으로 제공하는 기본 스킬과 사용자가 필요에 의해 만드는 사용자 정의 스킬로 나뉠 수 있습니다. 기본 스킬은 OpenClaw가 실행형 AI로 동작할 수 있도록 해주는 최소 기능 집합입니다. 예를 들어, 쉘 명령 실행, 파일 읽기/쓰기, 브라우저 제어, 메시지 전송 같은 기능은 별도 설정 없이도 사용할 수 있도록 설계되어 있습니다. 이 내장 스킬들은 OpenClaw의 표준 실행 모델을 따르며, 안정성과 범용성을 우선합니다. 즉, 대부분의 사용자 환경에서 안전하게 동작할 수 있도록 기본 정책과 제약 조건이 적용되어 있습니다.

OpenClaw — 텔레그램으로 현재 설치된 스킬 확인하기 <출처: 작가>

반면, 사용자 정의 스킬은 특정 목적을 위해 직접 작성하는 확장 모듈입니다. 사용자는 기본 도구(exec, browser 등)를 조합해 자신만의 워크플로를 정의할 수 있습니다. 예를 들어 다음과 같은 스킬을 만들 수 있습니다.

특정 사이트에서 매일 데이터를 수집해 요약하는 스킬
로컬 로그를 분석해 이상 징후를 감지하는 스킬
특정 폴더를 정리하고 결과를 Slack으로 전송하는 스킬

이때 중요한 점은 사용자 정의 스킬도 기본 스킬과 동일한 실행 파이프라인을 사용한다는 것입니다. 즉, OpenClaw의 Agent Runner와 도구 호출 구조 위에서 동작합니다. 구조적으로는 동일하지만, 목적과 로직이 사용자에 의해 정의된다는 차이가 있습니다.

OpenClaw 설치 및 실행 예제

설치 전 준비 사항은 다음과 같습니다. 먼저 사용할 AI 모델을 준비해야 합니다. 이미 구독 중인 LLM API를 사용할 수 있습니다. 다음으로 Telegram, Discord 등 연결할 채널을 미리 생성해야 합니다. 설치 환경에서는 기본적으로 Node.js 22 이상 버전을 필요로 합니다. 설치 환경과 방법은 운영체제에 따라 다르므로 공식 가이드를 참고해 각 환경에 맞는 설치 방법을 확인하는 것이 좋습니다.

많은 개발자들은 OpenClaw를 자신의 노트북이나 맥미니 등의 데스크톱에서 실행하고 있습니다. 이 경우 노트북 뚜껑을 닫는 순간 “자율 에이전트”도 함께 잠에 들어버립니다. 그래서 저의 첫 사용은 엔비디아 GPU가 설치된 우분투 리눅스 기반의 클라우드 인스턴스에 설치하여 에이전트가 지속적으로 실행됩니다.

로컬 머신 대신 리눅스 서버를 선택한 다른 이유는 이 서버 내에서 Ollama를 구동하고 있었기에, OpenClaw 구동에 꼭 필요한 AI 모델 서비스를 로컬에서 사용하기 위해서였습니다. 결과적으로 유료 AI 모델의 토큰은 절약할 수 있었지만, 응답 속도와 결과 품질은 기대에 미치지 못했습니다. 따라서 사용자는 자신에게 알맞은 AI 모델을 찾으면서도 비용 최적화를 할 수 있는 방법을 직접 테스트해 보며 찾아보시길 권장합니다.

“openclaw onboard --install-daemon” 명령으로 온보드를 실행하면 보안 경고를 처음 만나게 됩니다. 내용은 OpenClaw는 파일을 읽을 수 있고 명령을 실행할 수 있고 Tool이 켜져 있으면 시스템에 영향 줄 수 있으며 잘못된 프롬프트로 위험한 동작을 할 수도 있다는 일종의 경고입니다.이후 사용할 AI 모델 및 채널 등의 설정을 마무리합니다. 저는 많은 채널 옵션 중 텔레그램을 선택하였습니다. 아래는 텔레그램을 통해 OpenClaw에게 명령을 주고받은 예제입니다.

웹 대시보드도 제공하며, 토큰 사용량과 예상 비용 등을 확인하고, 추가 채팅을 통해 Skill 등의 설정을 진행하거나, 방법을 확인할 수도 있습니다.

OpenClaw 활용 영역, 일상 자동화와 맞닿는 보안의 위협

OpenClaw의 철학을 가장 잘 보여주는 영역은 일상생활입니다. 매일 아침 뉴스 요약을 받아보고, 특정 사이트를 모니터링하고, 파일을 정리하고, 메시지를 자동 전송하는 등의 작업을 수행할 수 있습니다. 단순히 무언가를 개발하기 위한 도구가 아니라, 나의 디지털 환경을 이해하고 도와주는 실행형 AI입니다.

기업 환경에서도 활용 가능하지만, 실제 체감 가치는 개인 단말기에서의 반복 작업 자동화에서 더 크게 느껴질 수 있습니다. 공식 튜토리얼 페이지를 보면, OpenClaw의 활용 방향이 분명해집니다. 튜토리얼은 복잡한 엔터프라이즈 배포보다는 개인 자동화 시나리오에 초점을 둡니다. 예를 들어, Telegram을 통해 AI에게 명령을 내리고, 뉴스 요약을 받거나, 웹 검색을 수행하거나, 파일을 정리하는 방식입니다.

웹 검색을 원할 경우 추가 설정을 통해 브라우저 기반 탐색을 활성화할 수 있습니다. 이를 통해 OpenClaw는 단순한 대화형 AI가 아니라, 실제 웹 환경을 탐색하고 데이터를 수집하는 실행형 에이전트가 됩니다. 이러한 공식 페이지의 내용을 보자면 현재로선 “업무용 AI 시스템”이라기보다, “내 일상을 돕는 로컬 AI 비서”에 가깝습니다.

파일을 읽고 쓰며, 쉘 명령을 실행하고, 브라우저를 제어하는 실행형 AI이기에 이러한 강력함은 곧 운영체제 수준의 권한을 가진 자동화 엔진이라는 의미이기도 합니다. 따라서 단순한 챗봇과는 전혀 다른 보안 관점이 필요합니다. 예를 들어 브라우저 제어 기능이 활성화된 상태에서 악성 웹 콘텐츠가 프롬프트를 오염시키면, 의도하지 않은 명령 실행으로 이어질 가능성이 있습니다. 또한 exec 기능은 잘못된 지시가 내려질 경우 파일 삭제나 시스템 설정 변경 같은 심각한 결과를 초래할 수 있습니다.

사용자 정의 스킬 역시 확장성을 제공하는 동시에 공격 표면을 넓히는 요소가 됩니다. 결국 로컬 AI 시대에는 네트워크 중심 보안만으로는 충분하지 않습니다. AI에게 행동 권한을 부여하는 순간, 최소 권한 원칙과 승인 기반 실행 모델 같은 단말기 중심 보안 설계가 필수가 됩니다. OpenClaw는 이러한 구조적 전환이 왜 필요한지를 보여주는 사례입니다.

로컬 AI 시대의 아키텍처 전환

지금까지 살펴본 대로 OpenClaw는 단순히 또 하나의 AI 에이전트가 아닙니다. AI가 실제 시스템을 제어하는 시대에는 네트워크 중심 보안뿐 아니라, 단말기 중심 보안 전략이 중요해집니다. 제로 트러스트 모델과 결합된 로컬 AI 에이전트는 하나의 현실적인 방향성을 제시합니다. 앞으로 AI는 점점 더 많은 권한을 가지게 될 텐데요. 파일을 수정하고, 코드를 실행하고, 브라우저를 제어하고, 메시지를 전송하는 실행 주체가 될 것입니다.

그 변화의 출발점에서 OpenClaw는 흥미로운 실험이자, 하나의 아키텍처 제안입니다. 만약 여러분이 프로덕트 메이커라면 이제 질문해야 합니다. AI를 클라우드에 둘 것인지, 아니면 단말기에 둘 것인지, 그리고 그 위에는 어떤 보안과 정책 모델을 설계할 건가요? 나아가 이 강력한 AI 에이전트를 통해 어떤 새로운 생산성을 만들어낼지에 대한 고민이 더욱 중요해질 겁니다.