전 메타·구글 임원이 말하는, PM 절반이 어려워지는 이유

9분

2026.04.24.

1. 써볼 것:Claude Opus 4.7, 무엇이 달라졌을까?

Claude Opus 4.7은 앤트로픽이 4월 16일에 출시한 최신 플래그십 모델입니다. 출시 직후부터 코딩 커뮤니티에서 큰 관심을 받았는데요. 커서(Cursor)의 CEO는 자체 벤치마크에서 Opus 4.6 대비 12%p 향상됐다고 밝혔고, 데빈(Devin)의 CEO는 몇 시간 동안 일관되게 작동하며 어려운 문제를 끝까지 밀어붙인다고 평가했습니다. 다만 출시 이틀 만에 코딩은 확실히 좋아졌지만 그 외에는 오히려 퇴보했다는 반응이 나오기 시작했습니다.

무슨 문제를 해결해 주나요?

Opus 4.6까지의 Claude는 복잡한 코딩 작업을 맡기면 중간에 맥락을 잃거나, 여러 파일에 걸친 리팩토링에서 사람이 계속 확인해줘야 하는 경우가 있었습니다. 특히 길게 돌리는 에이전트 작업에서 안정성이 아쉽다는 피드백이 많았고요. Opus 4.7은 이 부분을 집중적으로 개선한 모델입니다. 앤트로픽은 이전에 밀착 감독이 필요했던 가장 어려운 코딩 작업을 이제 Opus 4.7에 맡길 수 있게 됐다고 설명합니다.

무엇이 달라졌나요?

코딩 벤치마크부터 보면 도약이 뚜렷합니다. 소프트웨어 엔지니어링 벤치마크 SWE-bench Pro에서 64.3%(Opus 4.6은 53.4%), SWE-bench Verified에서 87.6%(Opus 4.6은 80.8%)를 기록했고요. GPT-5.4나 제미나이 3.1 프로도 앞섰습니다. 코딩 외에도 몇 가지 주목할 변화가 있습니다.

비전 해상도 3배 향상: 이미지를 최대 2,576픽셀(약 375만 화소)까지 처리할 수 있게 됐습니다. 이전은 1,568픽셀(약 115만 화소)이었으니 3배 이상이고요. 차트, 코드 스크린샷, 디자인 시안 같은 걸 분석할 때 체감이 달라진다는 반응이 있습니다. 자율 보안 테스트 회사 XBOW의 비주얼 정확도 벤치마크에서 98.5%를 기록했는데, Opus 4.6은 54.5%였습니다.
추론 단계 xhigh 추가: 기존에 low, medium, high, max 4단계였는데, high와 max 사이에 xhigh가 추가됐습니다. Claude Code에서는 이 xhigh가 기본값으로 설정되어 있고요. 앤트로픽은 코딩과 에이전트 작업에는 high나 xhigh로 시작하라고 권장합니다.
/ultrareview 명령어: Claude Code에서 쓸 수 있는 코드 리뷰 전용 명령어입니다. 변경 사항을 읽고 버그나 설계 이슈를 찾아 리뷰하는 별도 세션을 띄우는 방식인데요. 프로와 맥스 사용자에게 3회 무료 제공됩니다.
파일 기반 장기 메모리 개선: 여러 세션에 걸쳐 작업할 때 메모를 기억하고 활용하는 능력이 좋아졌다고 합니다. 여러 세션에 걸친 작업이 안정적으로 이어진다는 테스터 보고가 있고요.
사이버 보안 장치 탑재: 지난주 소개한 Mythos의 사이버보안 능력이 너무 강력해서 일반 공개하지 않았는데, Opus 4.7에는 금지되거나 위험도 높은 사이버보안 요청을 자동으로 감지하고 차단하는 보안 기능이 처음으로 적용됐습니다.

토큰 소모와 범용 품질 논란

출시 후 커뮤니티 반응이 갈리고 있습니다. AI타임스는 성능 퇴보 논란이라는 기사를 냈고, 레딧에서는 Opus 4.7은 업그레이드가 아니라 심각한 퇴보라는 게시물이 추천 3200개, 댓글 800개를 넘기며 화제가 되기도 했습니다.

주요 논란 포인트를 정리하면 이렇습니다.

토큰 소모 증가: 새 토크나이저(텍스트를 토큰으로 쪼개는 방식)가 바뀌면서 같은 텍스트에 토큰이 1.0~1.35배 더 듭니다. 여기에 xhigh 기본 설정까지 겹치면, 실질 사용량이 Opus 4.6 대비 2배 가까이 빨라진다는 보고가 나오고 있습니다. 요금 자체는 Opus 4.6과 동일하지만(입력 100만 토큰당 $5, 출력 $25), 같은 작업에 토큰을 더 쓰니까 실질 비용은 올라가는 거죠.
긴 문맥 회수 능력 하락: 긴 대화에서 앞쪽 정보를 다시 꺼내오는 능력을 측정하는 벤치마크에서, 78.3%에서 32.2%로 크게 떨어졌다는 분석이 있습니다. 긴 문서 분석이나 대규모 코드 리뷰에서 체감이 나빠질 수 있다는 뜻이고요.
일반 대화 품질 체감 하락: 코딩 특화 쪽으로 굉장히 뾰족하다는 평가가 나왔고, 맥락이 덜 주어질 때 소통 능력이 떨어진다는 보고가 있습니다. 적응적 사고 기능에 대한 원성이 심해서 롤백된 이력도 있고요.

정리하면, 에이전트 코딩 작업에서는 확실한 업그레이드입니다. 여러 파일에 걸친 리팩토링, 장시간 자율 작업, 이미지 분석이 주 용도라면 바로 전환할 가치가 있고요. 반면 글쓰기, 긴 문서 분석, 일반 대화가 주 용도라면 Opus 4.6을 유지하는 게 나을 수 있습니다.

누구에게 좋을까요?

Claude Code나 커서에서 장시간 에이전트 코딩 작업을 자주 하는 개발자
여러 파일에 걸친 리팩토링, 코드 아키텍처 설계 같은 복잡한 코딩 작업이 필요한 팀
이미지 분석이 중요한 작업을 하는 사람 (차트, 스크린샷 분석 등)

추론 단계 조절이 핵심입니다. Claude Code에서 기본 xhigh를 쓰되, 단순 작업에서는 high로 내리면 토큰 소모를 줄일 수 있습니다. 앤트로픽 공식 블로그에서는 첫 메시지에 의도, 제약 조건, 완료 기준을 한 번에 넘기라고 권장하고 있고요. 대화를 여러 턴에 나눌수록 추론 비용이 붙어서 토큰을 더 쓰게 된다고 합니다. 가격은 Opus 4.6과 동일하게 입력 100만 토큰당 $5, 출력 $25이고, Claude.ai와 각종 클라우드 플랫폼에서 쓸 수 있습니다.

2. 참고할 것:Claude Mythos 무단 접근 사건

앤트로픽이 최근 발표한 Claude Mythos는 사이버보안 취약점 탐지에 특화된 AI 모델입니다. 능력이 너무 강력해서 앤트로픽이 일반 공개하지 않기로 하고, 프로젝트 글래스윙이라는 이름으로 애플, 마이크로소프트 등 극소수 파트너에게만 제한 제공한 모델인데요. 그런데 4월 21일, Bloomberg와 TechCrunch가 보도한 소식에 따르면, Mythos 공개 당일 외부인이 무단으로 접근하는 일이 벌어졌습니다.

어떻게 뚫렸나요?

Bloomberg에 따르면, 미공개 AI 모델을 추적하는 디스코드 기반 그룹이 Mythos에 접근하는 데 성공했다고 합니다. 접근 경로가 두 가지였는데요. 하나는 앤트로픽의 서드파티 업체에 근무하는 사람의 접근 권한을 이용한 것이었고, 다른 하나는 앤트로픽이 기존 모델에 쓰던 URL 패턴을 유추해서 모델의 위치를 찾아낸 것이었다고 합니다. 정교한 해킹이 아니라 패턴 추측으로 접근에 성공한 거죠. 이 그룹은 공개 당일부터 Mythos를 사용해왔고, 실제 접근 증거로 Bloomberg에 사용 화면과 실시간 시연까지 보여줬다고 합니다. 다만 그룹 측은 새로운 모델을 가지고 놀아보는 것에 관심이 있었을 뿐, 피해를 주려는 의도는 아니었다고 밝혔죠.

왜 문제인가요?

앤트로픽은 조사 중이며 자사 시스템에 영향을 미친 증거는 없다고 밝혔습니다. 그룹의 의도도 악의적이지 않았다고 하고요. 하지만 이 사건이 문제가 되는 이유는 맥락에 있습니다. 앤트로픽은 Mythos의 사이버보안 능력이 악용될 경우 전 세계 인프라에 위협이 될 수 있다는 이유로, 1억 달러 상당의 크레딧과 함께 50개 이상의 파트너에게만 제한 제공하는 방식을 택했습니다. 안전하고 책임감 있는 AI를 내세우며 가장 신중한 배포 방식을 선택한 건데, 그 모델이 URL 패턴 추측으로 접근 가능했다는 건 보안 인프라가 모델의 능력을 따라가지 못하고 있다는 신호로 읽힐 수 있습니다.

무엇을 얻어가야 하나요?

이 사건은 프로덕트 메이커에게 두 가지를 짚어줍니다.

하나는, AI 모델의 성능만큼 접근 제어도 중요하다는 점입니다. Mythos는 모델 자체는 압도적이었지만, 그걸 담는 그릇은 그만큼 단단하지 못했습니다. AI 프로덕트를 만들 때 모델 성능에만 집중하기 쉬운데, 누가 어떤 경로로 접근할 수 있는지를 같은 수준으로 설계해야 한다는 걸 보여주는 사례입니다.

다른 하나는, 외부 협력사가 보안의 가장 약한 고리가 될 수 있다는 점입니다. 앤트로픽 자체 시스템이 뚫린 건 아닙니다. 서드파티 업체 직원의 권한과 URL 패턴 유추를 조합해서 접근한 건데, 결국 AI 모델을 외부에 제공하는 순간 파트너사의 보안 수준까지 내 보안의 범위가 되는 거죠. 모델을 잘 만드는 것만큼, 모델을 누구에게 어떻게 열어주는지를 설계하는 일이 중요해지고 있습니다.

3. 적용해볼 것:전 메타·구글 임원이 말하는, PM 절반이 어려워지는 이유

Nikhyl Singhal은 메타와 구글을 거쳐, 크레딧 카르마의 CPO를 지낸 사람입니다. 지금은 시니어 프로덕트 리더 125명이 모인 Skip이라는 커뮤니티를 운영하면서, 프로덕트 업계에서 무슨 일이 벌어지고 있는지를 가장 가까이서 관찰하고 있는 사람 중 한 명이죠. Lenny's Podcast에 최근 출연해서 인터뷰한 내용이 프로덕트 커뮤니티에서 주목받고 있습니다.

무슨 문제를 해결하려 하나요?

AI 때문에 PM이 사라질 거라는 이야기는 요즘 흔하게 들립니다. 그런데 실제로 현장에서 무엇이 바뀌고 있는지를 구체적으로 설명해주는 사람은 많지 않죠. Singhal은 125명의 프로덕트 리더를 매달 만나면서 관찰한 내용을 토대로, 무엇이 달라졌고 누가 잘되고 있으며 누가 어려운지를 직설적으로 이야기합니다.

무엇이 달라졌다고 말하나요?

Singhal의 핵심 진단은 이렇습니다. 3년 전까지 PM의 하루는 정보를 정리하고 전달하는 일이 대부분이었다고요. 내 팀이 만든 내용을 상사가 이해하게 정리하고, 상사가 그 윗사람에게 다시 전달하는 구조. 그는 이걸 권한 없는 책임이라고 불렀는데, 직장 스트레스의 가장 큰 원인이라고 했습니다. 지금은 이 정보 전달자 역할이 빠르게 사라지고 있다고 합니다. 대신 남는 게 두 가지인데, 판단력과 직접 만드는 능력이라는 겁니다.

판단력이라는 게 추상적으로 들릴 수 있는데, Singhal은 이렇게 설명합니다. 변경 사항이 좋은지 나쁜지 평가하는 것, 100개 커스텀 버전 대신 지속 가능한 하나를 설계하는 것, 만들 가치가 있는지 출시할 가치가 있는지 결정하는 것. 테스트 비용이 거의 0에 가까워지면서 변화의 속도가 10배 이상 빨라지고 있고, 그 속도에서 무엇을 바꾸고 무엇을 지킬지 결정하는 게 판단력이라고요.

빌더 쪽은 더 직접적입니다. 그가 운영하는 125명 프로덕트 리더 모임에서 최근 쇼앤텔을 했는데, 모두 노트북을 열고 자기가 만든 걸 보여주면서 서로 더 나은 걸 만들었다고 경쟁하더라고요. 3년 전만 해도 프로덕트 리더 모임에서 코드를 보여주는 건 상상하기 어려운 일이었죠.

좋은 소식과 나쁜 소식

좋은 소식부터 하면, 빌더 성향의 PM은 역대 최고의 시기를 보내고 있다고 합니다. 보상은 사상 최고치이고, 제안도 그 어느 때보다 많고, 다음 직장으로 창업자나 CEO를 고려하는 사람도 늘고 있다고요. 실제로 Singhal의 커뮤니티에서 지난 12개월 동안 14명이 창업자로 전환했다고 합니다. 125명 중 14명이면 적지 않은 숫자죠.

나쁜 소식은, PM의 절반 정도가 빌더가 아닌 정보 전달자 유형이라는 겁니다. 이 사람들에게 Singhal은 꽤 직설적이었습니다. 만드는 걸 좋아하지 않는다면 위기에 처해 있다고요. 앞으로 12~24개월 안에 대규모 구조조정이 벌어질 거라는 게 그의 예측인데, 3만 명을 자르고 8천 명을 뽑는 상황이 벌어질 수 있고, 그 8천 명은 전부 AI를 기본으로 쓰는 인재가 될 거라고 했습니다.

이력서의 회사 이름보다 지금 일하는 방식을 본다고 합니다

Singhal이 강조한 또 다른 변화가 있습니다. 이전에는 이력서에 메타, 구글 같은 회사 이름이 있으면 그것만으로 실력을 인정받을 수 있었지만 지금은 인터뷰에서 어떤 도구를 쓰는지, 판단을 어떻게 내리는지를 묻는다고요. 이전 회사에서 뭘 출시했는가보다, 지금 어떻게 일하고 있는가가 더 중요해졌다는 겁니다. 흥미로운 관찰은, 정보 전달 중심의 일하는 방식에 가장 능숙했던 사람이 오히려 전환이 가장 어렵다는 부분입니다. 지금 방식으로도 잘하고 있으니까 바꿀 이유를 못 느끼는 건데, Singhal은 이 지점이 함정이라고 하죠.

그래서 어떻게 해야 하나요?

Singhal의 핵심 조언은 하나입니다. 만드는 일에서 기쁨을 찾아라. 문장 자체는 추상적으로 들리겠지만, 그가 말하는 맥락은 구체적입니다.

AI 도구로 뭔가를 직접 만들어보면, 어느 순간 재미를 느끼는 첫 번째 순간이 온다고 합니다. 집안 조명을 제어하는 앱을 만들었거나, 자기 업무용 비서 앱을 만들었거나, 파트너와 함께 쓰는 도구를 만들었거나. 내용은 사람마다 다르지만, 그 순간이 오면 두려움에서 기쁨으로 전환이 일어난다고요. 그리고 기쁨은 번아웃의 가장 강력한 해독제라고 했습니다.

동시에 그는 이 혼란이 영원하지는 않을 거라고도 했습니다. 인터넷이 등장했을 때도 기존 PM의 일하는 방식이 완전히 뒤집혔지만, 몇 년 지나니 새로운 기준이 잡혔죠. 지금도 2년 정도면 어느 정도 안정될 거라는 게 그의 관측입니다. 다만 그 2년이 결정적이라는 게 메시지죠. 업계가 안정됐을 때 살아남아 있으려면, 지금 변화해야 한다고요.

어렵죠. 배워야 할 건 매일 늘어나고, 따라가야 할 속도는 점점 빨라지는데, 정작 내가 지금 뭘 해야 하는지는 더 흐릿해지는 느낌이 들 때가 있습니다. Singhal의 이야기를 정리하면서도, 이걸 읽는 분들이 또 하나의 압박으로 받아들이면 어쩌나 하는 걱정이 됩니다. 그래서 이 말을 남기고 싶습니다. 지금 당장 커리어를 재설계하거나, 뭔가를 완성할 필요는 없습니다. 다만 자기 일에서 반복되는 작업 하나를 골라서, AI 도구로 바꿔보는 건 해볼 만하죠. 회의 요약이든, 데이터 정리든, 간단한 자동화든. 변화가 두렵지 않아지는 건, 공부를 많이 해서가 아니라 직접 만들어본 경험이 한 번이라도 있기 때문인 것 같습니다.

적용해볼 질문

내 하루 중 정보를 정리하고 전달하는 데 쓰는 시간과, 직접 무언가를 만들거나 판단하는 데 쓰는 시간의 비율은 어떤가?
AI 도구로 무언가를 직접 만들어본 경험 중, 재미를 느낀 순간이 있었는가? 없었다면, 그 첫 경험을 만들 수 있는 가장 작은 프로젝트는 무엇인가?
지금 나는 스스로 현재 어떻게 일하는지를 설명할 수 있는가?

실행해볼 수 있는 것

이번 주 회의 중 하나를 골라서, 그 회의에서 정리·전달하는 데 쓰는 시간을 AI 도구로 자동화할 수 있는지 실험해보기. 상태 보고서, 이슈 정리, 회의 요약 같은 것부터 시작해보기.
가장 작은 빌드 프로젝트 하나를 정해서, 이번 주 안에 작동하는 결과물을 만들어보기. 업무용이든 개인용이든, 동작하는 무언가를 만드는 경험 자체가 중요합니다.
자기 역할에서 판단이 필요한 순간을 명시적으로 기록해보기. 일주일간 어떤 결정을 내렸는지, 그 결정이 왜 AI에게 맡길 수 없는 것이었는지 정리해보기 (이를 바탕으로 내 역할의 핵심이 어디에 있는지 생각해보기)

다음 주에도 여러분이 놓치지 말아야 할 프로덕트 메이커 소식을 정리해서 찾아뵙겠습니다. 요즘 프로덕트 메이커 콘텐츠가 도움이 되셨다면, 꼭 작가 알림 설정을 부탁드립니다. 콘텐츠 내용 중 잘못된 정보나 정정이 필요한 부분이 있다면 댓글로 알려주세요. 빠르게 수정하겠습니다. 다음 주에 또 만나요!