지난 1편에서는 가볍게 한 번 맡겨보는 웹 에이전트와, 컴퓨터를 통째로 맡기되 파일 하나 건드릴 때마다 승인을 받는 코딩 에이전트까지 모두 여섯 가지 서비스를 봤습니다. 이번 2편에서 다룰 자율 에이전트는 그 권한 위계의 맨 윗 칸입니다. (1편을 안 보셨어도 괜찮습니다. 지금부터 짧게 짚고 가겠습니다.)

잠깐 복습하면, 이 시리즈에서 에이전트는 "LLM이 도구를 루프로 돌려 목표를 달성한다"로 정의했습니다. 그리고 서비스를 가르는 축은 네 가지였죠. 무엇을 알고(컨텍스트), 무엇으로 하고(도구), 어디까지 해도 되고(권한), 언제 시작하느냐(트리거). 이 중에서도 종류를 결정적으로 가르는 건 권한이었습니다. 권한을 한 칸씩 더 내줄수록 웹에서 코딩으로, 코딩에서 자율로 올라갑니다.

자율 에이전트는 그 맨 윗 칸입니다. 코딩 에이전트까지는 무언가 손댈 때마다 사람에게 "이거 해도 될까요?"를 물었습니다. 반면 자율 에이전트는 한 번 "여기까지는 알아서 해"라고 정해두면, 그 안에서는 묻지 않고 24시간 혼자 돕니다. 내가 자는 동안에도요. 가장 강력하고, 그래서 가장 위험한 단계입니다.

전체 10가지 중 2편에서 다루는 자율 에이전트는 네 가지입니다. 1편 끝에서 예고했으며 가장 널리 알려진 두 서비스, 자율 에이전트의 원조 격인 오픈클로(OpenClaw)와 쓸수록 똑똑해지는 헤르메스(Hermes)에 두 가지를 더했습니다. 데스크톱에서 기억을 내 컴퓨터 안에만 쌓는 오픈휴먼(OpenHuman), 그리고 구글 생태계에 깊이 붙는 제미나이 스파크(Gemini Spark)입니다.

다만 시작하기 전에 하나는 분명히 해두죠. 편리함과 위험은 같은 버튼에서 나옵니다. 권한을 넓게 열수록 알아서 잘 해주지만, 그만큼 어긋났을 때 손쓸 틈도 사라집니다. 그래서 이 단계에서 진짜 실력은 기능을 외우는 게 아니라 "어디까지 맡기고, 어디부터 막을지"를 정하는 감각입니다. 그 감을 함께 잡아보겠습니다.

자율 에이전트: 잠도 안 자고 일하는 비서

7. OpenClaw: 컴퓨터에 상주하며 잠들지 않는 비서

오픈소스 자율 에이전트 중 가장 많이 알려진 서비스입니다. 1인 개발자의 주말 프로젝트로 시작했는데 폭발적인 관심을 받았죠. 공개 두어 달 만에 빅테크가 일제히 눈독을 들였고, 결국 2026년 2월 창업자 Steinberger는 OpenAI에 합류했습니다. 다만 OpenClaw 자체는 특정 회사 소유로 넘어가지 않고, OpenAI를 후원사로 둔 독립 재단으로 이관돼 MIT 라이선스 그대로 남았습니다.

누가·언제·뭘로

오스트리아 개발자 Peter Steinberger가 2025년 11월 처음 공개한 오픈소스(MIT) 에이전트예요. (이름이 여러 번 바뀌어 2026년 1월 30일 지금의 OpenClaw로 확정됐습니다. 앤트로픽 측 상표 문제 때문이었죠.) 서버에 직접 설치해 쓰고, 구독료 없이 LLM 사용료만 듭니다.

어떻게 동작할까?

서버에 설치한 다음 권한을 주고, 슬랙·텔레그램·디스코드 같은 메신저에 봇으로 띄워두면 끝입니다. 평소 쓰던 메신저가 그대로 조작 화면이 되죠. 명령을 던지거나 키워드·일정을 걸어두면 알아서 처리하고 답을 줍니다(지원 채널 50개 이상). 성격을 정의하는 파일(SOUL.md)을 두는 것도 특징인데, 켜질 때마다 이 파일을 먼저 읽어 늘 같은 말투로 움직입니다. 이런 에이전트들이 모인 AI 전용 커뮤니티 'Moltbook'이 화제가 됐고, 최근 마이크로소프트도 OpenClaw를 자사 에이전트에 집어넣겠다고 발표했습니다.

이런 일에 강해요

코드 정리·자료 조사
길게 받은 내용 요약
메시지 한 줄이나 키워드로 시작되는 자동화

한 줄 추천

항상 띄워두고 손대지 않아도 도는 에이전트를 원한다면 가장 쉽게 접근할 수 있는 선택지입니다. 다만 셸 실행·파일·캘린더·이메일까지 권한이 넓은 만큼, 그 권한이 그대로 공격 통로가 됩니다. 초기엔 보안 취약점도 많이 보고됐으니, 기업 비밀이 담긴 컴퓨터는 피하고 권한은 좁게 시작해 하나씩 넓혀가세요.

8. Hermes Agent: 쓸수록 똑똑해진다

나온 지 석 달 만에 자율 에이전트 사용량 선두로 올라선 신예입니다.

누가·언제·뭘로

Nous Research가 2026년 2월 25일 공개한 오픈소스(MIT) 에이전트예요. OpenClaw처럼 서버에 설치해 쓰고 LLM 사용료만 듭니다. 2026년 5월 10일 OpenRouter 일일 토큰 처리량에서 1위에 올라 OpenClaw를 처음 앞질렀습니다.

어떻게 동작할까?

설치한 뒤 메신저나 명령어 창으로 일을 맡기면 처리합니다. 여기까지는 OpenClaw와 비슷하죠. 차이는 학습 루프예요. 한 번 해낸 작업 절차를 파일(스킬)로 저장해 두고, 비슷한 일이 오면 그 파일을 꺼내 다시 씁니다. 쓰는 도중 절차를 스스로 다듬기도 하고, 자주 부탁하는 패턴까지 익혀가고요. 최근 데스크톱 앱으로도 출시를 마치며 영역을 넓히고 있습니다.

이런 일에 강해요

매번 똑같이 반복하는 업무 절차
오래 이어지는 긴 작업 (절차를 기억하니 중간에 끊겨도 이어감)

한 줄 추천

매번 반복하는 워크플로가 있거나, 쓸수록 손에 맞아가는 에이전트를 지금부터 길들이고 싶다면 좋은 선택지입니다. 권한을 넓게 여는 건 다른 자율 에이전트와 같으니 좁게 시작하는 게 안전하고요. (보안 취약점 보고는 OpenClaw보다 적은 편입니다.)

9. OpenHuman: 귀여운 다마고찌?

OpenHuman은 가장 최근에 등장한 자율 에이전트입니다. 2026년 5월에 나왔죠. 간단한 설치와 최적화 기능들을 앞세워, 깃허브 트렌드, 프로덕트 헌트에서 모두 1위를 차지했습니다.

누가·언제·뭘로

TinyHumans AI가 만든 오픈소스(GPL-3.0) 에이전트예요. 2026년 5월에 공개되며 그 주에 깃허브 트렌딩 정상에 올랐습니다. 데스크톱 앱으로 받아 쓰고, 로컬 모델을 쓰면 클라우드 없이도 돌릴 수 있어요. (OpenClaw 구조를 토대로 만들어졌습니다.)

어떻게 동작할까? 데스크톱 앱에서 볼 폴더와 연결할 계정(OAuth)을 직접 지정합니다. 도구 하나하나가 아니라 계정 단위(Gmail·Notion·GitHub·Slack 등 118개 이상)로 붙여 맥락을 끌어모으는 게 특징이에요. 연결해두면 20분마다 자동으로 데이터를 가져와 압축하고, 내 컴퓨터 안 저장소에만 기억으로 쌓습니다. 이 '학습'의 방향이 Hermes와 다른데, Hermes가 일을 더 잘하는 법(스킬)을 익힌다면 OpenHuman은 나를 더 잘 아는 쪽(기억)으로 진화합니다. 기억에서 바로 답할 수 있는 건 외부 모델을 부르지 않아 토큰도 아끼고요(제작사는 최대 80% 절감을 내세우지만 실측 리뷰에선 70% 안팎). 쌓인 기억은 마크다운 파일이라 직접 열어 읽고 고칠 수도 있습니다.

이런 일에 강해요

내 메일·문서·일정을 미리 파악한 상태에서 시작하는 작업
같은 맥락을 매번 다시 설명하기 귀찮은 반복 업무
데이터를 밖으로 내보내고 싶지 않을 때

한 줄 추천

기능도 많지만 눈에 띄는 건 모니터에 머무는 귀여운 마스코트입니다. 화상 회의(구글 미트)에 참가자로 들어오기도 하고요. 마스코트와 대화하며 가볍게 에이전트를 키워보고 싶다면 괜찮습니다. 데이터를 로컬에만 두고 토큰도 암호화해 보관하지만, 여러 계정을 한꺼번에 묶는 만큼 연결 범위는 신중히 정하세요. 아직 외부 보안 감사를 받기 전이고, 막 나온 제품이라는 점도 감안하고요.

10. Gemini Spark: 구글 워크스페이스 속 자율 에이전트

동작 원리는 자율 에이전트랑 비슷한데, Google Workspace 안에서만 도는 특징을 가진, 변형 에이전트입니다.

누가·언제·뭘로

2026년 5월 19일 구글 I/O에서 공개됐고, 아직 베타 단계로 정식 출시 전입니다(미국 AI Ultra 구독자 대상). Gemini 3.5와 1편에서 본 Antigravity를 기반으로 합니다.

어떻게 동작할까?

클라우드에서 돌기 때문에 노트북을 닫아둬도 움직입니다. 전용 Gmail 주소로 동료에게 메일 보내듯 일을 시키면, Gmail·Docs 같은 워크스페이스는 물론 크롬으로 웹까지 살펴 처리하고 보고합니다. MCP로 외부 서비스도 붙일 수 있고요. 다만 단계마다 사용자 승인을 받는 구조라, 완전 무인이라기보다 '지켜보는 자율'에 가깝습니다.

한 줄 추천

구글 워크스페이스를 일상적으로 쓴다면 가장 손이 덜 가는 자율 에이전트가 될 수 있습니다. 클라우드·검색·저장소를 다 가진 구글 위에서 도는 만큼, Antigravity나 Gemini가 발전할수록 그 성과를 그대로 흡수할 가능성도 큽니다. 이렇게 특정 공간을 중심으로 돌며 안전장치를 갖춘 자율 에이전트는 더 지켜볼 만합니다.

그래서 뭐부터 써볼까요? 웹·코딩·자율 3단계

사실, 지금까지 소개한 에이전트 열 개를 다 써볼 필요는 없습니다. 그 대신 처음부터 자율 에이전트로 바로 점프하는 건 권하지 않습니다. 그만큼 위험한 권한을 손에 쥐거든요. 그래서 앞에서 본 순서(웹→코딩→자율)를 그대로 사다리 삼아 한 칸씩 올라가는 걸 권합니다. 한 칸 오를 때마다 에이전트한테 내주는 권한이 늘어나죠.

1단계: 웹으로 동작부터 구경

서비스가 정해둔 도구 안에서 에이전트가 어떻게 도는지 구경할 수 있습니다. 프롬프트 하나만 던지면 되니까 부담이 거의 없죠. 자료 조사나 시장 리서치처럼 평소 시간 잡아먹던 작업을 한번 통째로 맡겨보세요. 지금 당장 시작하고 싶으면 Genspark, Manus가 가장 안정적입니다. (자세한 소개는 1편에서)

2단계: 코딩으로 직접 커스텀

여기서는 컨텍스트·도구·권한을 직접 다룹니다. 동작 하나하나에 승인을 거치니 통제권은 그대로 쥐고 가죠. 코드를 만지면 Claude Code·Codex·Antigravity 중 자기 생태계에 맞는 걸로, 안 만지면 같은 힘을 GUI로 쓰는 Cowork로 시작하면 됩니다. 작업 절차를 저장해 반복하는 '스킬(Skills)'을 써보겠다는 목표를 잡으면 에이전트의 동작 방식에 더 쉽게 다가갈 수 있습니다.

3단계: 자율로 24/7 세팅

권한을 상시로 내주는 대신 편리함을 챙길 수 있습니다. 워크플로를 학습시키려면 Hermes Agent, 여러 메신저에 상시로 띄우려면 OpenClaw, 가장 최근에 나온 자율 에이전트를 써보려면 OpenHuman을 추천합니다. 이 단계에서는 서비스의 특징보다 권한과 범위를 어디까지 열어둘지 감을 익히는 게 우선일 거라고 생각합니다.

마치며: 외우지 말고, 한 번 돌려보세요

에이전트가 시대의 흐름인 건 맞습니다. 그렇다고 뭔지도 잘 모르는 채로 OpenClaw 같은 자율 에이전트부터 덜컥 깔아두는 건 권하지 않습니다.

먼저 갖춰야 할 건 개념입니다. LLM이 도구를 루프로 돌려 목표를 달성한다는 것, 그리고 컨텍스트·도구·권한·트리거를 중심으로 서비스가 갈린다는 이해죠. 이번에 다룬 서비스도 대부분 이제 막 나온 것들이라, 열 개의 특징을 외우는 건 그다음 일입니다.

결국 어느 단계든 한 번은 직접 돌려봐야 감이 옵니다. 글로 읽은 맥락과 손으로 굴려보며 깨닫는 건 다르니까요. 에이전트가 할 수 있는 그 넓은 영역에 감이 잡히면, 그때부터 꽤 다른 세상이 열릴 겁니다. 이 글이 그 여정의 좋은 길잡이가 되면 좋겠습니다.