프로덕트 소식은 넘쳐나지만 대부분 이런 게 나왔대에서 끝납니다. 그래서 뭘 어떻게 하라고? 내 작업에 어떻게 써먹지? 거기까진 연결이 잘 안 되죠. 따라서 요즘 프로덕트 메이커는 바로 쓸 수 있는 것, 그 중에서도 주목해볼 만한 것을 엄선해서 매주 금요일에 전달드리려 합니다.

요즘 프로덕트 메이커는 매주 세 가지를 골라 전합니다:

써볼 것: 로컬 코딩 LLM - 내 컴퓨터에서 직접 돌리는 코딩 모델, 지금 어디까지 왔나
참고할 것: 앤트로픽 연구 - 앤트로픽 40만 세션 분석, AI 코딩 시대에 살아남는 건 코딩 실력이 아니다
적용해볼 것: 아이팟·아이폰의 아버지 토니 파델: AI에게 넘겨선 안 될 한 가지

1. 써볼 것: 내 컴퓨터에서 직접 돌리는 코딩 모델, 지금 어디까지 왔나

클라우드에 올라간 모델을 불러 쓰는 대신, 코딩용 AI 모델을 자기 컴퓨터에 올려놓고 돌리는 사람들이 부쩍 늘었습니다. 얼마 전 Hacker News에 매일 코딩에 쓰던 Claude나 GPT를 로컬 모델로 갈아탄 사람 있냐는 질문이 올라왔는데, 1,200 포인트가 넘고 댓글은 500개가 넘게 달렸죠. 로컬 모델로 에이전트 코딩을 직접 시켜본 개발자 Alex Ewerlöf는 그 과정을 블로그에 꼼꼼히 정리해뒀습니다.

무슨 문제를 해결해 주나요?

직접 돌리는 이유는 대개 비용, 보안, 그리고 모델이 언제 바뀔지 모른다는 불안입니다.

비용부터 보면, GitHub Copilot이 쓴 만큼 내는 과금으로 바뀌었고 클라우드 주력 모델 값도 만만치 않습니다. Ewerlöf도 자기가 쓰던 모델 값이 세 배 가까이 뛴 걸 계기로 꼽습니다. 로컬은 전기값과 한 번 장만한 장비 말고는 따로 나가는 돈이 없죠. 보안도 빼놓을 수 없습니다. 회사 코드를 외부 서버로 보내면 안 되는 환경이라면, 모델이 아무리 좋아도 클라우드는 선택지에서 빠지니까요. 로컬은 코드가 기기 밖으로 나가지 않습니다. 마지막은 통제권입니다. 지난주 Fable 5 사례처럼 잘 쓰던 모델이 갑자기 막히거나 조건이 바뀌는 걸 한 번 겪고 나면, 내 손에 모델 하나쯤 두고 싶어지죠.

어떻게 쓰나요?

크게 장비, 모델, 그리고 둘을 묶어주는 도구가 필요합니다.

장비: RTX 4090이나 5090 같은 그래픽카드, 또는 메모리를 큼직하게 단 통합 메모리 맥(CPU와 GPU가 메모리를 함께 써서 큰 모델을 올릴 수 있는 맥)이면 시작할 수 있습니다.
모델: Ewerlöf는 Gemma 4 26B-A4B를 추천하고, HN에서는 Qwen 3.6 35B-A3B를 쓰는 사람이 많았습니다. 둘 다 MoE 방식인데, 전체 크기는 커도 매번 그 일부만 작동해서 생각보다 가볍게 돌아갑니다.
도구: 모델을 받아 관리하는 LM Studio나 Ollama, 실제로 모델을 돌리는 엔진 llama.cpp·MLX·vLLM, 그리고 그 모델에 파일 읽기나 명령 실행 같은 손발을 달아 에이전트로 만들어주는 하네스(Pi나 Copilot 등)를 얹습니다.

세팅하다 보면 놓치기 쉬운 부분도 몇 개 있습니다. LM Studio는 한 번에 읽어 들이는 분량(컨텍스트 창)이 처음엔 4천 토큰으로 잡혀 있습니다. 이대로면 코드를 제대로 못 물리니까 15만 토큰쯤으로 직접 늘려놔야 합니다. 메모리가 빠듯할 땐 KV 캐시의 정밀도를 조금 낮추는 방법이 있는데, 이러면 VRAM을 28.75GB에서 22.45GB로 줄일 수 있어요. 생성 속도가 초당 10토큰 밑으로 떨어지면 실제로는 답답해서 쓰기 어려운 수준입니다.

많이들 쓰는 방식은 섞어 쓰기입니다. 방향을 잡고 계획하는 건 최신 클라우드 모델에 맡기고, 실제 구현은 로컬 모델에 시키는 식이죠. 로컬이 막히면 OpenRouter의 무료 모델로 잠깐 넘어가기도 하고요.

누구에게 좋을까요?

댓글에서 자주 나온 비유가 주니어와 시니어입니다. 로컬 모델은 하나하나 정확히 일러줘야 움직이는 주니어에 가깝고, Opus 같은 최신 모델은 아키텍처까지 알아서 고민하는 시니어에 가깝다는 거예요. 그래서 평가도 갈리죠. 4090이나 5090에 Qwen이나 Gemma를 올리면 간단한 작업은 충분하다는 사람도 있고, 한참 써보니 DeepSeek 같은 저렴한 클라우드 모델이 더 싸고 잘해서 로컬은 취미 수준이 한계라는 사람도 있었습니다.

참고로 Ewerlöf는 최근 DeepSeek V4 Pro로 갈아탔다고 적었는데, 성능이 Opus 4.8에 맞먹고 값은 훨씬 싸다는 수치는 모델을 만든 쪽 발표라 곧이곧대로 믿기보다 직접 확인해보는 게 좋습니다. 글에 나오는 속도나 절약 수치도 대부분 개인 환경에서 나온 후기라, 내 환경에서 직접 다시 재보는 게 좋습니다.

마지막으로 누구에게 맞는지 보면 이렇습니다.

잘 맞는 경우: 코드를 외부로 못 보내는 환경, 비용에 아주 민감한 경우, 직접 만지며 굴려보는 재미를 아는 사람.
굳이 안 써도 되는 경우: 코드를 꼭 내부에서만 다뤄야 할 이유가 없다면, 사실 대부분은 로컬까지 갈 필요가 없습니다. 그래픽카드나 메모리 큰 맥을 새로 장만해야 한다면 그 값을 뽑으려면 어지간히 많이 돌려야 하고, 컨텍스트 설정이나 모델 교체에도 계속 손이 갑니다. 아키텍처까지 맡기는 복잡한 작업이 많다면 오히려 더 답답할 수 있고요. 로컬 모델은 빠르게 좋아지고 있으니, 급한 게 아니면 나중에 다시 봐도 늦지 않습니다.

<출처: anthropic, Agentic coding and persistent returns to expertise>

2. 참고할 것: 앤트로픽 40만 세션 분석, AI 코딩 시대에 살아남는 건 코딩 실력이 아니다

Anthropic(앤트로픽)이 6월 16일 Agentic coding and persistent returns to expertise라는 연구 보고서를 냈습니다. 2025년 10월부터 2026년 4월까지 Claude Code 세션 약 40만 건, 사용자 약 23만 5천 명을 개인을 식별하지 않는 방식으로 분석한 자료입니다. 보고서의 핵심만 이야기하자면, 에이전트에게 코딩을 시킬 때 결과를 가르는 건 코딩 실력이 아니라 자기 분야를 얼마나 잘 아느냐였습니다.

어떤 연구인가요?

세션 기록을 모델(Claude Sonnet 4.6)이 읽어 분류하는 방식입니다. 두 가지는 미리 알아두면 좋은데요. 하나는 앤트로픽이 자사 도구인 Claude Code의 사용 데이터를 직접 분석했다는 점이고, 다른 하나는 여기서 말하는 성공이 실제 현장 결과가 아니라 기록에 남은 신호, 그러니까 커밋이나 통과한 테스트, 사용자의 확인 같은 걸로 판정됐다는 점입니다. 그래서 큰 흐름을 읽는 자료 정도로 참고하면 될 것 같습니다.

무엇을 발견했나요?

가장 먼저 눈에 띄는 건 사람과 AI가 일을 나눠 갖는 방식입니다. 사람이 무엇을 할지(계획)의 약 70%를 정하고, Claude가 어떻게 할지(실행)의 약 80%를 맡습니다. 사람은 방향을 잡고, 에이전트는 그걸 구현하는 셈이죠. 전문성이 높을수록 한 번 지시에 Claude가 더 많은 일을 합니다. 초보 세션은 프롬프트 하나에 행동 5개, 단어 600개 정도를 끌어내는데, 전문가 세션은 행동 12개에 단어 3,200개를 끌어냅니다.

여기서 전문성은 직함이 아니라 그 작업 하나에 한정된 이야기입니다. 시니어 엔지니어라도 처음 만지는 Rust 앞에서는 초보고, Python을 한 번도 안 써본 회계사라도 어떤 정산 규칙을 넣어야 하는지 정확히 알고 마감 때 빠진 부분을 짚어내면 그 작업에서는 전문가입니다.

그래서 코딩 배경 자체는 생각보다 덜 중요했습니다. 코드를 만든 세션에서 거의 모든 직군이 소프트웨어 엔지니어와 7%포인트 안쪽으로 성공했고, 관리직은 오히려 살짝 높기도 했죠. 일을 지시하고 위임하는 데 익숙한 점이 통한 걸로 보입니다. 성공률은 전문성을 따라 오르지만, 중급에서 전문가로 가는 구간의 차이는 크지 않았습니다. 깊이 통달하지 않아도 분야를 어느 정도 알면 대부분의 이득을 가져간다는 뜻이죠.

7개월 사이 일의 종류도 바뀌었습니다. 망가진 코드를 고치는 비중이 33%에서 19%로 줄고, 배포·운영, 데이터 분석, 문서 작성처럼 코드 주변의 일이 그 자리를 채웠습니다. 작업의 가치도 평균 25~27%쯤 올랐다고 하는데, 이건 프리랜서 공고와 견줘 매긴 거친 상대 추정치라 액수 그대로 읽기보다는 흐름으로만 보면 되겠습니다.

무엇을 얻어가야 하나요?

AI가 ‘어떻게’를 점점 가져가는 동안, 무엇을 만들지 정하고 그게 맞는지 정확히 짚어내는 내 이해가 차별점이 됩니다. 코딩 경력이 없어도 자기 분야를 잘 알면 같은 도구에서 더 많은 걸 끌어내고, 분야를 모르면 그 도구로도 얻는 게 적었으니까요. 앤트로픽 자사 데이터를 바탕으로 한 초기 연구라는 점은 감안해야 하지만, 코딩이 점점 누구나 하는 일이 되어가는 지금 내가 키워야 할 게 코딩 실력 그 자체가 아닐 수 있다는 신호로 읽을 만합니다.

3. 적용해볼 것: 아이팟·아이폰의 아버지 토니 파델: AI에게 넘겨선 안 될 한 가지

Tony Fadell이 Lenny's Podcast에 출연해 AI 시대의 제품 만들기를 두고 이야기를 나눴습니다. 그는 아이팟을 만들고 아이폰을 함께 개발했고, 네스트를 세워 구글에 32억 달러에 판 인물이죠. 또, 제품을 만드는 사람들의 교과서로 꼽히는 「빌드(Build)」의 저자이기도 합니다. 화려한 이력을 가진 그가 이번 인터뷰에서 거듭 강조하는 건 하나입니다. AI에 만들기는 맡겨도 생각만은 넘기지 말라는 거죠.

무슨 이야기인가요?

요즘은 프롬프트 한 줄이면 결과물이 뚝딱 나옵니다. 만들기가 쉬워진 만큼, Fadell은 오히려 눈에 띄는 건 깊이 고민한 것들뿐이라고 말합니다. 기계를 쓰되 판단까지 기계에 넘기지는 말라는 겁니다. 사람이 가운데서 빠지면 안 된다는 거죠.

그래서 안목이 더 중요해진다고 봅니다. 세상에 없던 1.0 제품을 만들 때는 참고할 데이터가 없어서 누군가는 자기 안목으로 결정을 내려야 합니다. Fadell은 이걸 데이터 기반이 아니라 의견 기반 결정이라 부르고, 그 결정을 내리는 소수를 안목 있는 사람(taste maker)이라 불러요. 아이폰에 물리 키보드를 넣을지 말지를 두고도 데이터는 어느 쪽도 분명히 가리키지 못했고, 마지막엔 스티브 잡스가 방향을 정했다는 거예요. AI가 기능을 거저 붙여주는 지금은, 무엇을 만들고 무엇을 뺄지 정하는 안목이 더 중요해진다는 게 그의 생각입니다.

무엇을 만들지는 어떻게 정하나요?

Fadell은 늘 고통에서 출발한다고 합니다. 사람들이 지금 겪는, 또는 곧 겪을 불편을 먼저 보고, 그걸 이제야 풀 수 있게 해준 새 기술이 나왔는지를 묻는 식이죠. 둘이 만나는 자리에서 새 제품이 나온다고 봅니다.

네스트가 그랬습니다. 온도조절기 인터페이스는 다들 싫어했고 난방·냉방이 전기요금의 절반을 차지하는데, 마침 패턴을 학습하는 AI가 그 불편을 풀 수 있게 됐어요. 그래서 249달러짜리 기기가 연 800~1,200달러를 아껴준다는 계산으로 밀어붙였습니다. 아이폰도 멀티터치, 와이파이, 빨라진 프로세서가 한꺼번에 도착한 순간에 나왔고요. 지금은 그 새 기술 자리에 AI가 들어옵니다. 내가 풀려는 오랜 불편이 무엇이고, 그걸 이제야 풀 수 있게 해준 게 정말 AI인지 따져보라는 이야기로 읽힙니다.

하나 더, Fadell은 제품을 한 조각이 아니라 시스템으로 보라고 합니다. 우리가 기억하는 건 아이팟이지만 실제로 시장을 연 건 아이팟에 아이튠즈, 뮤직 스토어까지 붙은 한 묶음이었고, 아이폰도 앱스토어가 있어서 아이폰이 됐다는 거예요.

그럼 AI는 어떻게 쓰나요?

Fadell이 든 사례가 인상적입니다. 어떤 제품은 코드를 거의 다 AI가 짰는데, 실력 있는 엔지니어가 그 코드를 보고 기겁했다고 해요. 너무 얽혀 있고 읽기 어려워서 손대기 무서운 상태였다는 겁니다. AI가 짠 코드가 당장 돌아가고 테스트를 통과해도 안전한지, 나중에 고칠 수 있는지, 문제가 생기면 되돌릴 수 있는지는 또 다른 문제라는 거죠. 당장은 빨라 보여도 빚으로 쌓이는, 이른바 기술 부채입니다.

이건 코드만의 이야기가 아닙니다. 프롬프트 한 줄로 1.0은 만들 수 있어도, 그 뒤를 받쳐줄 설계나 마케팅, 영업 없이 5.0, 6.0까지 끌고 가긴 어렵다는 거예요. 그래서 Fadell은 AI를 이렇게 쓰라고 합니다. 프로토타입을 잔뜩 만들어 내 감을 다듬는 데 쓰고, 큰 구조는 내가 잡아서 고정한 다음, 좁게 쪼갠 부분만 AI에 맡기라는 거죠. 결정은 사람이 쥐고 있어야 한다는 말입니다.

마케팅을 보는 시각도 비슷합니다. Fadell은 프로젝트를 시작하기 전에 출시 보도자료부터 써보라고 합니다. 보도자료에는 핵심 기능을 서너 개밖에 못 담는데, 그 이상은 고객에게 횡설수설로 들리기 때문이에요. 이 제약이 거꾸로 제품을 다잡습니다. 기능을 다섯 개 더 붙인다고 더 팔리는 게 아니고, 핵심 셋 중 둘을 빼버리면 팔 이유가 사라지니까요. AI가 기능을 얼마든지 붙여주는 지금은, 무엇을 남기고 무엇을 버릴지 골라내는 이 작업이 오히려 더 중요해집니다.

그가 좋은 예로 든 건 Flighty라는 항공 앱이에요. 이미 나와 있는 Flighty를 보고 흉내 내는 건 AI로도 할 수 있겠지만, 처음의 그 1.0은 안목으로 하나하나 결정해 빚어낸 거라 AI가 흉내 낼 본보기 자체가 없다고 봅니다. 그러니 지금 내가 만드는 게 처음 선보이는 1.0인지, 이미 있는 걸 다듬는 다음 버전인지부터 보라는 거죠. 1.0의 안목은 내가 쥐고, 반복되는 뒷부분을 AI에 맡기는 식입니다.

덧붙여, 한 번에 완성되는 건 없다고도 합니다. 아이팟도 윈도우 지원과 아이튠즈 뮤직 스토어가 붙은 3세대에 와서야 자리를 잡았고, 네스트의 제품들도 몇 세대를 거쳤다고 해요. 그는 만들고, 고치고, 그다음 사업을 다듬으라고 정리합니다. 멈추지만 않으면 그건 실패가 아니라 배움이라는 말도 덧붙입니다.

적용해볼 질문

AI가 뱉어낸 결과물을 나는 이해하고 판단해서 받았나요, 아니면 돌아가니까 그냥 받아들였나요?
내가 풀려는 오랜 불편은 무엇이고, 그걸 이제야 풀 수 있게 해준 새 기술은 정말 AI인가요?
지금 만드는 건 처음 선보이는 1.0인가요, 이미 있는 걸 다듬는 다음 버전인가요?

실행해볼 수 있는 것

지금 만들거나 다듬는 것 하나를 골라, 출시 보도자료를 미리 한 장 써보기. 핵심 기능을 세 개까지만 적고, 그 세 개만으로 사람들이 살 만한지 확인해보세요.
AI에게 받은 결과물 하나를 골라, 그대로 쓰기 전에 그 구조를 내가 다시 설명할 수 있는지 점검해보기. 설명이 막히는 부분이 있으면 거기부터 다시 들여다보세요.

다음 주에도 여러분이 놓치지 말아야 할 프로덕트 메이커 소식을 정리해서 찾아뵙겠습니다. 요즘 프로덕트 메이커 콘텐츠가 도움이 되셨다면, 꼭 작가 알림 설정을 부탁드립니다. 콘텐츠 내용 중 잘못된 정보나 정정이 필요한 부분이 있다면 댓글로 알려주세요. 빠르게 수정하겠습니다. 다음 주에 또 만나요!

콘텐츠가 마음에 드셨다면, 꼭꼭 작가 알림 설정과 좋아요를 부탁드립니다!