프로덕트 소식은 넘쳐나지만 대부분 이런 게 나왔대에서 끝납니다. 그래서 뭘 어떻게 하라고? 내 작업에 어떻게 써먹지? 거기까진 연결이 잘 안 되죠. 따라서 요즘 프로덕트 메이커는 바로 쓸 수 있는 것, 그 중에서도 주목해볼 만한 것을 엄선해서 매주 금요일에 전달드리려 합니다.

요즘 프로덕트 메이커는 매주 세 가지를 골라 전합니다:

써볼 것: supermemory - AI가 대화 사이마다 기억을 잃는 문제를 메우는 오픈소스 메모리 엔진
참고할 것: Claude Fable 5 - 출시 하루 만에 너무 막힌다는 반응이 쏟아진 신규 모델
적용해볼 것: AI는 1~2년 안에 천재들의 나라가 된다는 Anthropic CEO의 정책 제안

1. 써볼 것: AI가 대화 사이마다 기억을 잃는 문제를 메우는 오픈소스 메모리 엔진

supermemory는 AI에 장기 기억을 붙여주는 오픈소스 메모리·컨텍스트 엔진입니다. Dhravya Shah가 이끄는 팀이 만들고 있고, GitHub 별은 2만 6천 개를 넘었습니다. 구글과 딥마인드 임원이 참여한 시드 투자를 받은 곳이기도 하고요. 핵심은 AI가 대화가 끝나면 다 잊어버리는 한계를 메우는 데 있습니다. 대화에서 사실을 자동으로 뽑아 사용자 프로필을 만들고, 바뀐 정보는 갱신하고 지난 정보는 알아서 지웁니다.

무슨 문제를 해결해 주나요?

AI를 본격적으로 쓰는 사람이라면 한 번쯤 겪어봤을 거예요. 짧은 작업은 빠르고 편한데, 새 대화창을 열면 어제 알려준 맥락을 처음부터 다시 설명해야 합니다. AI는 세션이 바뀌면 이전 대화를 기억하지 못하니까요.

supermemory는 이 기억을 대신 맡아 둡니다. 예를 들어 서울에 산다고 알고 있던 사람이 부산으로 이사했다고 하면, 이전 정보를 새 정보로 바꿔 기억합니다. 내일 시험이 있다 같은 임시 사실은 날짜가 지나면 알아서 지우고요. 모순되는 정보가 들어오면 자동으로 정리하고요. 기존에는 이런 걸 직접 만들려면 벡터 DB를 세팅하고 임베딩 파이프라인과 청킹 전략까지 짜야 했는데, supermemory는 그걸 하나의 API 뒤로 숨깁니다.

어떻게 쓰나요?

크게 세 가지 방법이 있습니다.

코드 없이: MCP 서버나 플러그인을 설치하면 Claude Code, Cursor, VS Code 같은 도구에 기억이 붙습니다. 코드 없이 단독으로 쓰는 앱과 브라우저 확장도 따로 있고요. 저장·삭제(memory)와 검색(recall)은 AI가 알아서 호출하고, 프로필 주입(context)은 /context로 부릅니다.
개발자라면: npm이나 pip로 설치해 add()로 대화를 저장하고, profile()로 사용자 프로필과 관련 기억을 한 번에 받아옵니다. RAG와 메모리를 한 쿼리로 합친 Hybrid Search도 기본으로 동작합니다.
직접 돌리고 싶다면: 단일 바이너리로 설치하면 설정 없이 localhost:6767에서 동작합니다. Ollama를 붙이면 데이터가 기기 밖으로 나가지 않는 완전 오프라인으로도 쓸 수 있습니다.

구글 드라이브, 지메일, 노션, 원드라이브, 깃허브를 실시간으로 동기화하는 커넥터, PDF·이미지·영상·코드를 올리면 알아서 처리하는 추출기도 들어 있습니다. Vercel AI SDK, LangChain, LangGraph, n8n 같은 프레임워크용 래퍼도 있어서 쓰던 스택에 끼워 넣기 쉽습니다.

이렇게 어디든 붙을 수 있는 건 supermemory가 기억을 모델에서 떼어내 별도 층으로 두기 때문입니다. 그래서 모델을 바꿔도 그동안 쌓인 맥락은 그대로 남고, 어떤 모델을 쓰든 기억은 내 쪽에 둘 수 있습니다.

성능에 대해서는, supermemory가 LongMemEval, LoCoMo, ConvoMem 같은 AI 메모리 벤치마크에서 자사 기준 최상위라고 밝힙니다. 다만 점수는 발표마다 다릅니다. README는 LongMemEval 81.6%, 창업자는 약 85%, 실험적 셋업으로는 약 99%를 들기도 했는데 본인이 이건 프로덕션이 아니라고 단서를 달았습니다. 특정 숫자를 그대로 믿기보다 메모리 쪽에서 앞선다고 자체 평가한다 정도로 보면 됩니다.

누구에게 좋을까요?

AI 앱이나 에이전트에 기억·RAG·사용자 프로필을 붙이고 싶은 개발자
메모리 시스템을 직접 만들고 굴리는 부담까지는 지고 싶지 않은 1인·소규모 팀
자기 AI 비서가 매번 까먹는 게 불편했던 사람
보안상 데이터를 밖으로 내보내기 어려운 경우. 셀프호스트와 오프라인 옵션이 있는데, 오프라인은 로컬 모델을 써야 해서 성능은 감안해야 합니다

2. 참고할 것: 출시 하루 만에 너무 막힌다는 반응이 쏟아진 신규 모델

Claude Fable 5는 Anthropic(앤트로픽)이 6월 9일 공개한 신규 모델로, 사이버보안에 강한 미토스와 같은 모델에 안전장치를 더한 공개 버전입니다. 그동안 너무 강력해서 제한적으로만 풀던 미토스급 모델을 공개로 처음 써볼 수 있게 됐다는 소식이라, 출시 직후 X와 Reddit, 해커뉴스 같은 여러 커뮤니티에서 관심이 크게 쏠렸습니다. TechCrunch가 따로 다룰 만큼 반응이 뜨거웠고요. 그런데 그 상당수가 칭찬이 아니라, 안전장치가 너무 빡빡해서 평범한 작업까지 막힌다는 불만이었습니다.

어떻게 작동하나요?

가드레일이 걸리면 Fable은 대화를 멈추고 사이버보안 또는 생물학 주제로 플래그됐다고 안내한 뒤 Claude Opus 4.8로 폴백합니다. 악성코드 제작이나 생물·화학 무기 같은 위험을 막으려는 장치입니다. 앤트로픽은 이 안전장치가 평균적으로 세션의 5% 미만에서 작동하고, 더 강한 모델이 나오는 동안 오탐을 줄이려 작업 중이라고 밝혔습니다.

어떤 반응이 나왔나요?

가장 많은 불만은 오탐입니다. IBM X-Force의 보안 연구자 Valentina "Chompie" Palmiotti는 블로그 글을 읽는 것 같은 무해한 작업까지 사이버 관련으로 막힌다고 했습니다. Tolmo의 Matt Suiche는 안전한 코드를 짜달라고 하면 소프트웨어 엔지니어링이 아니라 사이버보안 작업으로 간주돼 다운그레이드된다며, 키워드·어휘 기반으로 보인다고 했고요.

해커뉴스에는 더 다양한 사례가 올라왔습니다. 도커 앱 로그 트러블슈팅, 자기 코드베이스의 인증·크리덴셜 코드 점검, PyTorch 같은 평범한 ML 작업, 홈 자동화 로그, 의료 내용이 든 CSV 파싱, 리버스 엔지니어링까지 막혀 계속 Opus 4.8로 내려갔다는 얘기가 이어졌습니다. 핵·생물·화학처럼 민감한 주제로 일부러 찔러보며 무엇이 막히는지 테스트한 사례도 있었고, 인구 통계나 궤도 역학 같은 학술 질문까지 걸렸다는 보고도 있었습니다.

두 번째는 다운그레이드 방식입니다. 가드레일이 걸리면 Fable은 더 낮은 모델인 Opus 4.8로 내려가는데, 사이버·생물 쪽에서는 모델이 바뀌었다는 걸 사용자에게 알려줍니다. 다만 모델 카드에 따르면, 모델을 베껴 경쟁 모델을 만들려는 시도에는 모델을 바꾸지 않고 알리지도 않은 채 성능만 떨어뜨린다고 합니다. 이를 두고 해커뉴스 스레드에서 일부 사용자는 몰래 결과를 망치는 것 아니냐고 우려했는데, 그렇게까지 단정할 근거는 없다는 반박도 함께 달렸죠. 또 성능이 낮은 모델로 내려갔는데도 원래 가격을 그대로 내야 하는 건 아닌지 궁금해하는 사람도 있었습니다.

세 번째는 데이터 보존입니다. 앤트로픽은 6월 9일부터 Fable을 포함한 미토스급 모델에 주고받은 프롬프트와 답변을 30일간 보관하기로 했습니다. 일반 소비자 요금제(Free·Pro·Max)는 원래 안전 목적으로 데이터를 보관해와서 달라지는 게 없고, 새로 영향을 받는 건 그동안 데이터를 전혀 남기지 않는 조건(영점 데이터 보존, ZDR)으로 쓰던 기업입니다. AWS Bedrock, 구글 Vertex, Azure 같은 클라우드로 ZDR을 적용해 데이터를 안 남기고 쓰던 곳도, 이제 미토스급 모델을 쓰려면 30일 보관에 동의해야 합니다. 보관하는 이유로는, 요청 하나만 보면 멀쩡한데 같은 요청을 조금씩 바꿔 수백 번 던지는 식으로 여러 번에 걸쳐야 드러나는 오용이 있어서, 요청을 모아 함께 봐야 잡을 수 있기 때문이라고 설명합니다. 보호장치로는 심각한 위험으로 플래그되거나 고객이 직접 요청한 경우에만 승인된 소수의 검토자가 열람할 수 있고, 누가 언제 봤는지는 지울 수 없는 기록으로 남으며, 30일이 지나면 자동 삭제된다고 합니다.

하지만 이 정책을 두고 나온 반응은 곱지 않았습니다. 에이전트 코딩 도구를 쓰면 코드베이스 전체가 모델 제공사로 넘어가는데, ZDR 계약을 믿고 쓰던 기업은 곤란해진다는 거예요. The Verge 보도에 따르면 마이크로소프트는 Fable 5를 고객용 GitHub Copilot에는 넣으면서도 직원들이 쓰는 사내 GitHub Copilot 모델 목록에는 넣지 않았습니다. 데이터 보존 조건 때문이고, 다른 Claude 모델은 ZDR이 적용돼 사내에서 계속 쓸 수 있습니다. 같은 보도에 따르면, 보통 데이터는 30일 뒤 지워지지만 사용 정책을 위반한 것으로 걸러진 요청은 최대 2년까지 보관될 수 있습니다. 여기에 GDPR·NDA 관련 우려, IPO 직전에 굳이 이러느냐는 냉소도 나왔고요.

네 번째는 효과 자체에 대한 회의론입니다. 키워드 기반이다 보니 작정한 공격자는 표현을 바꿔 빠져나가고 정작 정상 연구자만 막힌다는 비판입니다. 실제로 이런 식으로 우회를 시도하는 사용자도 관찰됐고, 일부 악성코드가 오히려 민감 키워드를 일부러 끼워 넣어 AI 검사 도구를 무력화하려 한다는 보안 업계 보도도 있었습니다. 이건 사용자를 지키는 가드레일이 아니라 앤트로픽을 지키는 장치라는 냉소도 보였습니다.

옹호하는 목소리도 있었습니다. 앞서 키워드 기반이라고 지적한 Suiche도, 초기 단계라 이해할 수 있고 시간이 지나면 완화될 거라고 덧붙였습니다. HN에도 실험적 고성능 모델이니 초기엔 과하게 막는 편이 낫다, 대안이 더 위험하다는 의견이 있었고요. 승인된 사이버 전문가에게 제한을 덜 거는 Cyber Verification Program도 있는데, 개인으로 신청해 통과했다는 사례와 공개 취약점(CVE) 이력이 있는데도 거절됐다는 사례가 엇갈렸습니다. OpenAI(오픈AI)에도 Trusted Access for Cyber라는 비슷한 프로그램이 있습니다.

무엇을 얻어가야 하나요?

이번 일이 보여주는 건, 모델이 강해질수록 그걸 고르는 기준도 달라진다는 점입니다. 예전엔 성능과 벤치마크가 거의 전부였다면, 이제는 안전장치가 내 작업을 막지는 않는지, 데이터 보존 조건이 회사 규정과 맞는지까지 함께 따져야 합니다. 마이크로소프트가 고객에게는 Fable 5를 팔면서 사내에서는 쓰지 않은 게 이걸 단적으로 보여주죠.

그리고 이 마찰은 한 번 고치면 끝나는 버그가 아닐 가능성이 큽니다. 모델을 강력하게 만드는 능력이 곧 위험을 키우는 능력이라, 다음에 더 센 모델이 나와도 가드레일이든 데이터 보존이든 비슷한 제약이 반복될 공산이 크고요. 앤트로픽이 오탐을 줄이겠다고 했으니 지금 상태가 고정은 아니지만, 이 줄다리기 자체는 쉽게 사라지지 않을 겁니다. 그래서 실무적으로는, 작업을 모델 하나에 다 묶어두기보다 용도별로 나누고 갈아끼울 수 있게 해두는 게 점점 중요해질 것 같습니다.

3. 적용해볼 것: 1~2년이면 AI가 차원이 달라진다는 Anthropic CEO의 정책 제안

Anthropic(앤트로픽) CEO Dario Amodei가 6월 10일 Policy on the AI Exponential(AI 기하급수에 대한 정책)이라는 글을 올렸습니다. Fable 5 출시 바로 다음 날 나왔고, 모델 테스트 의무화를 담은 입법 제안과 일자리 대응 프레임워크를 함께 내놔서 화제가 됐는데요. VentureBeat, Decrypt 등 여러 매체가 비중 있게 다뤘습니다. AI는 시간이 갈수록 더 빠르게 발전하는데 정책은 그 속도를 못 따라간다는 게 출발점이고, 강한 모델을 비행기처럼 출시 전에 검증받게 하자는 게 핵심 주장입니다.

어떤 주장인가요?

Amodei는 입법이 너무 느리다고 봅니다. 의회가 한 번 움직이는 사이에 AI는 신기한 장난감 수준에서 훨씬 강력한 단계로 건너뛸 수 있다는 거예요. 그는 이 단계를 데이터센터 속 천재들의 나라, 즉 수많은 천재가 데이터센터 안에서 한꺼번에 일하는 것과 같은 수준이라고 부릅니다. 컴퓨팅 자원을 키울수록 성능이 따라 오르는 지금의 흐름(스케일링 법칙)이 1~2년만 더 이어지면 거기에 도달한다는 거고요.

그래서 회사가 안전 점검 내용을 공개하게 하는 정도로는 부족하다며, 일정 규모 이상의 컴퓨팅 자원을 들인 최신 모델은 비행기가 운항 전 안전 검사를 통과하듯 출시 전에 제3자 검증을 받게 하자고 제안합니다. 검증 항목은 사이버 공격, 생물무기, AI 통제 상실, 그리고 이런 위험을 더 키울 수 있는 AI의 자동 연구 네 가지인데, 여기서 기준에 못 미치면 정부가 출시를 막을 수 있게 하자는 내용입니다.

일자리 문제도 비중 있게 다룹니다. AI로 인한 일자리 감소는 바람직하지 않고 막아야 한다는 입장에서, 임금 보험이나 고용 유지 세제, 재교육 지원 같은 완충책을 제시하고 장기적으로는 기본소득까지 언급합니다. 동시에 그는 한 사람이 10억 달러 규모 회사를 만들고 몇 명짜리 팀이 수억 달러 매출을 내는 일이 이미 벌어지고 있다고도 말합니다.

어떻게 받아들여지나요?

물론 반발도 있습니다. 비판하는 쪽이 먼저 짚은 건 시점입니다. Fable 5를 내놓은 바로 다음 날, 상장(IPO)을 앞둔 회사의 CEO가 강력한 모델은 정부가 출시를 막을 수 있게 하자고 제안했기 때문이죠. 내용을 두고도 말이 나옵니다. 전 마이크로소프트 윈도우 부문 사장이자 지금은 벤처 투자사 a16z 보드 파트너인 Steven Sinofsky 등은 이를 규제 포획이라고 봤습니다. 새 검증 의무가 그걸 감당할 여력이 있는 큰 회사에만 유리하고, 여력이 없는 작은 회사는 밀려나게 만든다는 뜻입니다. 게다가 어디까지 큰 모델에 적용되는 규칙인지 기준이 빠져 모호하다는 지적도 있습니다.

같은 주에 앤트로픽이 한 일들을 나란히 놓으면 이 비판이 왜 나오는지 보입니다. 에세이에서는 강력한 모델을 정부가 검증하고, 못 미더우면 출시를 막게 하자고 말하죠. 그런데 같은 시기에 내놓은 Fable 5는 스스로 가드레일을 빡빡하게 걸고 데이터 보존도 강화했습니다. 누군가는 앤트로픽의 말과 행동이 일치한다며 지지합니다. 반대로 비판하는 쪽은 이미 자기 회사에 맞춰 둔 방식을 업계 전체의 규칙으로 굳히려는 것 아니냐고 봅니다.

생각해볼 질문

정책 제안 자체는 우리가 좌우할 수 없지만, 그가 깔아둔 전제는 생각해 볼 만한 질문이라 생각합니다.

1~2년 안에 AI가 지금보다 훨씬 강력해진다면, 지금 내가 시간을 들여 쌓는 것 중에 그때 가치가 줄어들 건 무엇이고, 오히려 더 중요해질 건 무엇인가요?
한 사람이나 작은 팀도 큰 제품을 만들 수 있다는데, 나는 그 레버리지를 지금 어디에 쓰고 있나요?
내 작업이나 제품이 특정 모델 한 곳에 얼마나 묶여 있나요? 그게 막히거나 조건이 바뀌면 무슨 일이 생기나요?

다음 주에도 여러분이 놓치지 말아야 할 프로덕트 메이커 소식을 정리해서 찾아뵙겠습니다. 요즘 프로덕트 메이커 콘텐츠가 도움이 되셨다면, 꼭 작가 알림 설정을 부탁드립니다. 콘텐츠 내용 중 잘못된 정보나 정정이 필요한 부분이 있다면 댓글로 알려주세요. 빠르게 수정하겠습니다. 다음 주에 또 만나요!

콘텐츠가 마음에 드셨다면, 꼭꼭 작가 알림 설정과 좋아요를 부탁드립니다!