클로드 코드를 떠나 오픈소스로 돌아간 이유

반기황

10분

2026.06.15.

엔지니어들의 탈클로드 러쉬

최근 개발자들이 자주 찾는 커뮤니티 레딧(Reddit)에서 눈에 띄는 스레드 하나를 발견했습니다.

I am cancelling my Claude Pro subscription and here's my honest take.
클로드 프로 구독 취소합니다. 솔직한 후기

댓글창은 비슷한 경험담으로 가득했습니다.

나만 그런 게 아니었구나. 어제도 오전에만 제한이 3번 걸렸어.
Pro 플랜인데 Free tier보다 못한 느낌. 농담 아니고.
월 20달러 내면서 매일 ‘사용 한도 초과’ 보는 게 정상인가요?
방금 전환했습니다. DeepSeek + Ollama 조합. 솔직히 후회 없어요.

한때 “클로드 없이 어떻게 개발해?”라고 말하던 개발자들이, 이제는 집단으로 ‘탈클로드’를 선언하고 있는 것입니다.

이 같은 엔지니어들의 탈클로드 움직임은 역설적으로 앤트로픽의 엄청난 성공에서 비롯됐습니다. 클로드 코드는 단순한 대화형 AI보다 훨씬 많은 컴퓨터 자원을 사용합니다. 파일을 읽고, 코드를 분석하고, 여러 파일을 동시에 수정하는 것은 물론 터미널 명령어까지 실행해야 하기 때문입니다. 사용자가 AI에 명령을 내릴 때마다 거대한 서버 자원이 쉬지 않고 돌아가야 하는 셈입니다.

결국 앤트로픽은 불가피한 선택을 내렸습니다. 바로 사용량 제한(rate limit)을 대폭 강화한 것입니다. 그로 인해 Pro 플랜 사용자조차 하루 몇 시간만 집중적으로 작업하면 “사용 한도 초과” 메시지를 마주했습니다.

1. 예측 불가능한 블랙박스

이런 상황을 키우는 더 큰 문제가 있습니다. 사용량 기준이 완전히 불투명하다는 점입니다. 앤트로픽 지원팀에 “정확히 얼마나 쓸 수 있는 건가요? 요청 횟수, 토큰 수, 아니면 시간?”이라고 문의했을 때 돌아온 답변은 애매했습니다.

“구체적인 한도는 공개하지 않습니다. 사용 패턴과 시스템 부하에 따라 달라질 수 있습니다.”

결국 사용자는 언제 제한이 걸릴지 예측조차 할 수 없습니다. 똑같은 작업을 해도 어떤 날은 하루 종일 문제없지만, 어떤 날은 2시간 만에 막히기도 합니다.

실제로 한 개발자의 실험 결과에 따르면, 중간 규모 프로젝트 리팩터링(refactoring)은 약 2시간 30분 후 제한이 걸렸고, 여러 파일을 수정하는 신규 기능 개발은 약 3시간, 버그 디버깅 작업은 약 4시간 후 제한에 도달했습니다. 풀타임으로 일하는 개발자라면, 점심시간도 오기 전에 소진되는 것입니다.

저 역시 정확히 같은 문제를 겪었습니다. 데모 마감 2시간 전, AI 에이전트 데모에서 치명적인 버그를 발견했습니다. “괜찮아, 클로드한테 맡기면 10분이면 해결돼”라고 생각하며 코드 수정을 시작했는데, 불과 5분 만에 화면에 메시지가 떴습니다.

You've reached your usage limit. Please try again in 4 hours.
사용 한도에 도달했습니다. 4시간 후에 다시 시도해주세요

그 순간 머릿속이 하얘졌습니다. 결국 Gemini를 급하게 사용하고 Cursor로 보조한 다음, Stack Overflow를 뒤져가며 간신히 문제를 해결했습니다. 데모는 무사히 끝났지만, 그날 밤 한 가지를 깨달았습니다.

제 생계가 걸린 도구가 가장 필요한 순간에 작동하지 않는다면, 과연 그 도구를 믿을 수 있을까요?

2. 공지 없는 정책 변경

더 강한 결정타는 올해 2월 말 터졌습니다. 갑자기 같은 작업을 해도 이전보다 훨씬 빨리 제한이 걸리기 시작한 것입니다.

당시 어제까지 멀쩡하게 쓰던 프로젝트가 오늘은 2시간 만에 막혔다는 불만부터, 사전 공지도 없이 이런 변경을 하는 건 사실상 일방적인 계약 변경 아니냐는 항의까지 이어졌습니다. 하지만 지원팀에 문의한 사람들이 받은 답변은 “시스템 최적화”라는 모호한 설명뿐이었습니다. 트위터에서는 ‘#ClaudeLimits’ 해시태그가 트렌딩에 올랐고, 일부 사용자는 환불을 요구하기 시작했습니다.

3. 무너진 비용 대비 가치

클로드 코드를 사용하려면 Pro는 월 20달러, Max는 월 100~200달러 수준의 구독료를 지불해야 합니다. 초기에는 클로드 코드가 가져다주는 생산성 향상이 이 비용의 가치를 충분히 증명했습니다. 많게는 하루 5~6시간씩 절약되는 시간을 시급으로 환산하면, 오히려 저렴한 투자처럼 느껴졌죠. 물론 지금도 여전히 클로드는 가성비가 좋은 편이라고 생각합니다.

하지만, 불분명한 사용량과 빠르게 늘어나는 토큰 활용량으로 비용 대비 가치에 의문을 제기하는 목소리도 커지고 있습니다. 같은 돈을 내더라도 실제 사용 가능 시간은 줄어들고, 정작 가장 급한 순간에는 쓸 수 없는 상황이 반복되고 있기 때문입니다.

사실 이 정도 비용이면 클라우드 GPU 인스턴스를 빌려 사용량 제한 없이 오픈소스 모델을 실행할 수 있습니다. 더 나아가 중고 Mac mini를 구매해 로컬 환경에서 Ollama로 모델을 무제한 실행하는 선택지도 있죠. 결국 예측할 수 있으며 통제 가능한 비용 구조가, 오히려 더 합리적인 대안처럼 보이기 시작한 것입니다.

앤트로픽은 무리한 서비스 확장 속에서 안정성과 예측 가능성이라는 가장 중요한 요소를 놓치고 있는지도 모릅니다. 클로드 코드의 불확실성에 지친 저는 자연스럽게 오픈소스 모델로 눈을 돌리게 됐습니다.

오픈소스 모델이 대안이 될 수 있을까?

솔직히 처음에는 회의적이었습니다. LLM 성능은 상당수 모델 크기에 좌우되는 만큼, SoTA 모델에 훨씬 못 미치는 오픈소스 모델이 과연 그만큼 잘할 수 있을까?라는 의구심이 쉽게 사라지지 않았기 때문입니다.

하지만 2026년 현재, 오픈소스 모델 진영의 발전 속도는 제 예상을 훨씬 뛰어넘고 있었습니다.

1. 생각보다 좁혀진 성능 격차

Meta의 Llama 3.1(405B), DeepSeek의 V3 모델, 그리고 Qwen 3 Coder 같은 오픈소스 모델은 적어도 벤치마크 기준으로는 상용 모델과의 성능 격차를 빠르게 좁히고 있습니다. 특히 코딩 특화 모델인 DeepSeek Coder V2와 Qwen 3 Coder는 HumanEval 벤치마크에서 Claude 3.5 Sonnet과 비교해도 뒤지지 않는 성능을 보여주고 있습니다.

물론 아직 Claude 4.5 Sonnet의 SWE-Bench Pro 점수에는 미치지 못합니다. 다만 그 격차가 점점 빠르게 줄어드는 분위기입니다. 벤치마크 기준으로 좀 더 살펴보면 다음과 같습니다.

DeepSeek Coder V2: Claude 3.5 Sonnet과 유사한 수준입니다. 코딩 작업에서는 거의 동등한 성능을 보여줍니다.
Qwen 3 Coder: GPT-4 Turbo와 Claude 3 Opus 사이 정도의 성능입니다. 복잡한 코딩 작업도 대부분 처리할 수 있습니다.
Llama 3.1 70B: GPT-3.5 Turbo나 Claude 3 Haiku 수준입니다. 기본적인 코딩 작업에는 충분하지만, 복잡한 로직에서는 다소 한계가 있습니다.

실제로 간단한 테스트를 진행해본 결과, 일상적인 코딩 작업에서는 DeepSeek Coder V2나 Qwen 3 Coder 같은 오픈소스 모델도 Claude 3.5 Sonnet 못지않게 충분히 실용적이었습니다. 함수 작성, 버그 수정, 코드 설명, 단위 테스트 생성 같은 작업에서는 체감상 큰 차이를 느끼기 어려웠습니다.

Llama 3.1 70B나 Mistral Large 같은 모델을 사용할 때는 분명한 한계도 있었습니다. 복잡한 로직을 설명할 때는 조금 더 명확한 지시사항이 필요했고, 여러 파일을 동시에 다루는 작업에서는 맥락(context)을 놓치는 경우도 있었습니다. 다만 프롬프트를 조금 더 세밀하게 작성하면, 대부분 원하는 결과를 얻을 수 있었습니다.

물론 복잡한 아키텍처 설계나 여러 파일에 걸친 대규모 리팩터링 작업에서는 여전히 클로드 계열이 우위에 있습니다. 이런 수준의 작업에서는 클로드 기반 모델의 뛰어난 추론 능력과 장문 맥락 처리 능력이 확실한 강점을 보여줍니다. 반면 오픈소스 모델은 때때로 복잡한 의존성을 놓치거나, 긴 요구사항을 정확히 따르지 못하는 경우가 있습니다.

하지만 현실의 개발 업무를 들여다보면, 일상적인 작업의 80~90%는 DeepSeek Coder V2나 Qwen 3 Coder 정도의 성능, 즉 Claude 3.5 Sonnet 수준으로도 충분히 처리할 수 있습니다. 반대로 Claude 4.5 Sonnet 수준이 꼭 필요한 작업은 나머지 10~20% 수준의 복잡한 업무에 가깝습니다.

그렇다면 매일 모든 작업에 가장 강력한 모델을 써야 할까요? 아니면 대부분의 업무는 충분한 성능의 모델로 처리하고, 정말 필요한 순간에만 최고 성능 모델을 선택해야 할까요?

실무 관점에서 보면 후자가 훨씬 합리적입니다. 모든 작업에 안정적으로 활용할 수 없다면, 차라리 무제한 사용이 가능한 중급 성능 모델을 메인으로 사용하고, 정말 중요한 순간에만 클로드를 꺼내 쓰는 편이 더 효율적일 수 있습니다.

2. 다양해진 실행 옵션

과거에는 오픈소스 모델을 실행하려면 고가의 GPU 서버가 사실상 필수였습니다. 하지만 이제는 상황이 달라졌습니다. 생각보다 적은 컴퓨팅 자원만으로도 로컬 환경에서 충분히 실행할 수 있기 때문입니다.

대표적으로 Ollama 같은 도구를 사용하면 일반 노트북에서도 7B~14B 파라미터를 가진 모델을 쓸만한 속도로 구동할 수 있습니다. 32GB RAM 환경이라면 적절한 양자화(quantization)를 적용해 32B 모델까지도 무리 없이 돌아갑니다.

클라우드 GPU를 임대하는 방법도 있습니다. RunPod, Vast.ai 같은 서비스를 이용하면 시간당 약 0.5~1달러 수준으로 고성능 GPU를 빌릴 수 있습니다. 필요할 때만 켜고 끌 수 있어 비용 통제도 비교적 쉽습니다. 단순 계산으로 보면, 클로드 Pro 구독료(월 20달러) 수준의 비용으로 약 20~40시간 정도 GPU를 사용할 수 있는 셈입니다.

또한, 오픈소스 모델 호스팅 서비스를 활용하는 선택지도 있습니다. Groq이나 Together AI 같은 플랫폼은 클로드 API보다 훨씬 저렴한 가격으로 오픈소스 모델을 제공합니다. 특히 Groq은 초당 수백 토큰에 이르는 추론 속도를 제공하는 것으로 유명한데, 비용은 Claude API 대비 약 10분의 1 수준입니다.

게다가 Llama 같은 고품질 모델에 대해서도 사용량 제한이 Claude보다 훨씬 관대한 편입니다. 일부 모델은 사실상 제한 없이 사용할 수 있다는 점도 강점으로 꼽힙니다.

3. 진짜 장점은 자유와 통제권

제가 여러 오픈소스 모델을 다양한 방법으로 테스트하며 느낀 가장 큰 장점은 성능이나 가격이 아니었습니다. 바로 자유와 통제권입니다.

우선 이 방식에는 사용량 제한이 없습니다. 로컬에서 돌리든, 클라우드에서 돌리든 24시간 내내 원하는 만큼 쓸 수 있습니다. 급한 작업 도중 “사용 한도 초과” 메시지를 볼 걱정도 없습니다.

오프라인 환경에서도 작동한다는 점 역시 큰 장점입니다. 인터넷이 끊겨도, 서비스가 다운되어도, 로컬 모델은 계속 돌아갑니다. 보안이 중요한 프로젝트에서 코드를 외부 서버로 전송할 필요도 없습니다.

마지막 장점은 커스터마이징이 가능하다는 점입니다. 필요하다면 모델을 파인튜닝하거나, 프롬프트를 자유롭게 실험하고, 여러 모델을 조합해 쓸 수도 있습니다.

마치며

처음 클로드 코드를 만났을 때, 저는 진정한 AI 에이전트의 가능성을 목격했습니다. 클로드 모델의 성능은 정말 뛰어납니다. 하지만 뛰어난 성능만으로는 충분하지 않다는 것을 알았습니다. 예측하기 어려운 사용 제한, 공지 없는 정책 변경, 그리고 내가 통제할 수 없는 변수들 앞에서 저는 AI 엔지니어로서의 정체성마저 의심하게 되었습니다.

탈클로드를 결심한 이래, 지난 수개월은 시행착오의 연속이었습니다. 하지만 그 과정에서 생각보다 많은 것을 배웠습니다. 오픈소스로의 전환은 단순히 도구를 바꾸는 일 그 이상입니다. 엔지니어로서 독립성과 안정성을 되찾는 과정이었고, 그만큼 얻은 것도 많았습니다.

제가 현재 운영하는 워크플로우는 이렇습니다. 일상적인 코딩 작업은 로컬 Ollama에서 Qwen 3 Coder를 실행합니다. 복잡한 논리 설계가 필요할 때는 Groq의 호스팅 서비스로 DeepSeek V3를 사용합니다. 그렇게 해도 풀리지 않으면, 정말 필요한 순간에만 클로드 API를 호출합니다.

이렇게 운영하니 비용도 줄었고, 사용량 제한에 걸릴 일도 거의 사라졌습니다. 역설적으로 의존도를 낮추자, 정작 필요할 때 클로드를 더 효과적으로 활용할 수 있게 됐습니다. 수개월간 오픈소스 코딩 에이전트를 사용하며 느낀 점은 분명했습니다.

오픈소스 모델이 클로드의 완벽한 대체재는 아닙니다. 여전히 결과물이 다소 어색하거나 품질이 떨어지는 경우도 많습니다. 복잡한 아키텍처 설계나 대규모 리팩터링에서는 여전히 클로드 코드가 큰 우위에 있습니다. 하지만 현실의 개발 업무는 그런 이분법으로 나뉘지 않습니다. 대부분의 작업은 오픈소스 모델로도 충분히 처리할 수 있을 거라는 가능성을 보았습니다. 부족한 20%를 위해, 나머지 80%를 불안정한 서비스에 맡길 이유는 없다고 느꼈습니다.

개발자들의 탈클로드 움직임은 단순한 ‘가격 불만’ 때문은 아닙니다. 이것은 선택권을 되찾으려는 엔지니어들의 의식 있는 움직임에 가깝습니다. 한 회사의 정책에 종속되지 않고, 자신의 상황에 맞는 도구를 선택할 자유를 요구하는 것입니다.

소프트웨어 엔지니어링 역사를 돌아보면, 가장 성공한 기술은 늘 이런 자유도를 제공했습니다. Linux가 Windows를 넘어 서버 운영 체제의 표준이 된 이유도 단순히 가격 때문만은 아닙니다. 사용자가 원하는 방식으로 커스터마이징하고, 직접 통제할 자유가 있었기 때문입니다. 오픈소스 모델의 부상 역시 같은 맥락 안에 있습니다.

이제 오픈소스 모델은 “충분히 좋은” 수준까지 올라왔습니다. 클로드 코드가 여전히 더 좋다는 점은 인정합니다. 하지만 개발자들은 합리적입니다. “더 좋은” 도구를 하루 3시간만 쓰는 것보다, “충분히 좋은” 도구를 24시간 안정적으로 쓰는 편이 실무에서는 더 가치 있을 지도 모릅니다.

클로드 코드 독점 시대는 서서히 끝나가고 있습니다. 이제는 개발자가 자신의 필요에 맞는 도구를 선택하는 시대입니다. 그리고 그 전환에 필요한 것은 이미 충분히 갖춰져 있습니다.