2025년 들어 클로드 코드 같은 코딩 에이전트가 퍼지면서, 여기저기서 유행하기 시작한 것이 있습니다. 누가 토큰을 더 많이 태웠는지 줄 세우는 '토큰 사용량 리더보드'입니다. 곧 이 기업 저 기업에서 사내 리더보드 캡처본을 자랑삼아 올리기 시작했습니다. "오늘 사용 한도 다 채웠다"며 한도 창을 찍어 올리는 게시글도 흔했고요.

그런데 이 분위기는 최근 빠르게 무너졌습니다. 메타는 직원이 만들어 운영하던 토큰 순위표를 닫았고, 아마존도 비슷한 사내 순위표를 접으며 "AI를 그냥 쓰려고 쓰지는 말라"고 직원들에게 당부했습니다. 우버는 직원 1인당 AI 도구 비용에 한도를 걸었습니다. 언제는 맘껏 쓰라던 회사들이 약속이라도 한 듯 사용량을 제한하기 시작한 것입니다.

이제 토큰 사용량을 실력의 잣대로 삼던 문화는 끝났습니다. '토큰 맥싱' 시대의 종말이죠.

토큰을 많이 쓰면 AI를 잘 쓰는 걸까?

토큰 맥싱이란?

‘토큰 맥싱(tokenmaxxing)’이란 단어부터 짚어 봅시다. 외모를 극한까지 가꾸는 행위를 ‘룩스맥싱’이라 부르는 데서 온 말로, ‘-맥싱’은 무언가를 끝까지 밀어붙인다는 의미입니다. 그러니 토큰 맥싱은 AI에게 일을 잔뜩 시켜 토큰을 최대한 많이 쓰는 행위를 가리킵니다.

이러한 토큰 맥싱이 추구하는 건 결과물이 아니라 사용량 그 자체입니다. 토큰을 많이 썼다는 사실이 곧 'AI를 잘 쓴다'는 증거로 통했고, 그게 토큰맥싱의 출발점이었죠.

토큰 리더보드는 어떻게 퍼졌나

이 발상이 회사 제도로까지 번진 건 2025년 7월 즈음입니다. 당시 AI-first를 회사 기조로 삼아 이목을 끌었던 쇼피파이에서 ‘리더보드’를 운영한다고 말했습니다. 당연히 나쁜 의도는 아니었습니다. AI로 좋은 성과를 낸 사람을 알아봐 주자는 취지였고, 실제로 꽤 효과를 봤다고 했습니다.

*참고: Farhan Thawar와 함께 Shopify의 소프트웨어 엔지니어링을 변화시키는 AI(The Pragmatic Engineer)

문제는 이 형식이 빠르게 번지면서 변질됐다는 점입니다. 직원을 점수로 줄 세우는 비슷한 리더보드가 여러 회사에 생겼습니다. 메타에는 직원이 직접 만든 토큰 순위표가 있었는데, 사용량 상위 이용자에게 '토큰 레전드(Token Legend)'·'캐시의 마법사(Cache Wizard)' 같은 칭호까지 붙였습니다.

더 인포메이션 메타 담당 기자의 ‘토큰맥싱 리더보드’ 글 <출처:Jyoti Mann 링크드인>

마이크로소프트, 디즈니 등도 사내 ‘AI 도입 대시보드’에 사용량과 토큰 수를 띄웠고, 개발자 커뮤니티에도 토큰을 얼마나 썼는지 집계해주는 도구가 등장했습니다.

왜 토큰 리더보드는 무너졌나

애초에 토큰이 AI 활용도를 평가하는 지표 자리에 오른 이유는 단순합니다. 측정하기 쉬웠거든요. AI를 잘 도입했는지 따지는 건 원래 어렵고 눈에 잘 안 보이는데, 토큰은 숫자로 딱 떨어져 대시보드에 바로 뜹니다.

그런데 그 시작이 쉬웠던 만큼 이런 믿음이 흔들리는 것도 금방이었습니다. 왜 그랬을까요?

토큰 ≠산출물의 양

단순합니다. 토큰을 몇 배 더 태워도 산출물이 그만큼 늘지는 않았던 겁니다.

이걸 가장 비싼 값을 치르며 확인한 곳이 우버입니다. 우버는 2026년 한 해 쓸 AI 코딩 도구 예산을 첫 4달 만에 전부 소진했습니다. 일부 엔지니어는 토큰 값으로 월 2,000달러까지 썼다고 합니다. 문제는 그렇게 쏟아붓고도 값을 했는지 아무도 자신 있게 답하지 못했다는 점입니다. 우버 COO도 AI 사용은 늘었지만 그 돈이 실제 성과로 이어졌다고 딱 잘라 말하긴 어렵다고 했죠. 사용량은 폭발했는데 성과는 그 속도를 증명하지 못한 겁니다.

*참고: Uber caps employee AI spending after blowing through budget in 4 months(Techcrunch)

실제로 토큰을 많이 써서 코드를 쏟아내면 배포 건수는 늘지만, 그게 버그 없이 살아남는지는 별개의 이야기입니다. 그래서 우버는 직원 한 명당 도구별로 월 1,500달러 한도를 도입했습니다. 클로드 코드와 커서 같은 도구마다 따로 한도를 두고, 내부 대시보드로 사용량을 추적해 예외 승인이 있을 때만 초과를 허용하는 방식이죠.

토큰 ≠ 정직도

아마존에서도 직원들이 사내 도구로 굳이 안 해도 될 작업을 AI에게 떠넘기며 토큰 소비를 늘렸다는 보도가 나왔습니다. 한 직원은 “매니저들이 지켜보고 있고, 사용량 추적이 비뚤어진 동기를 만든다”고 했습니다.

*참고: Amazon employees are “tokenmaxxing” due to pressure to use AI tools(ArsTechnica)

경제학자 찰스 굿하트의 말이 떠오릅니다. 측정하는 잣대가 목표가 되는 순간, 그건 더 이상 좋은 잣대가 아니라는 거죠. 사람은 평가받는 항목에 맞춰 행동을 비틉니다. 토큰 사용량이 평가 기준이 되자, 토큰을 일부러 부풀리는 일이 실제로 벌어진 겁니다.

토큰 = 공급자의 매출

게다가 좀 더 구조적인 문제도 있습니다. 주요 모델을 만든 회사들의 매출은 최근 폭발적으로 늘었고, 그 배경에는 슬금슬금 오른 토큰 비용이 있습니다.

표를 보면 최근 나온 신형 모델들이 한 세대 전보다 비싸졌습니다. GPT-5.5는 직전 세대의 두 배, 제미나이 3.5 Flash는 직전 플래시의 약 세 배로 올랐고, 클로드 Opus 4.7은 표시 가격은 그대로지만 새 토크나이저 탓에 같은 글이 토큰을 최대 35%까지 더 먹습니다.

물론 성능이 좋아졌으니 값이 오르는 게 당연하다고 볼 수도 있습니다. 하지만, 단가만 오른 게 아닙니다. 토큰을 가장 많이 쓰는 코딩 에이전트들이 새 기능을 토큰을 더 소비하는 방향으로 진화시켜 왔거든요. 단가도, 한 작업에 드는 토큰 양도 함께 늘어난 셈입니다.

물론 공급자를 악당으로 몰 일은 아닙니다. 분명 모델이 토큰을 많이 쓴다는 것은 더 많은 일을 처리할 가능성을 높이며, 그 구조를 알아서 만들어 주는 기능은 일을 편하게 해줍니다. 게다가 모델을 한 번 돌릴 때마다 전력과 인프라 비용이 진짜로 들어가니, 가격이 오르는 데는 나름의 근거가 있습니다.

다만 이걸 돈 내고 쓰는 사람들의 생각은 다를 겁니다. 돈을 쓰는 만큼 효과가 돌아와야 하는데, 그게 불분명한 구성이었으니까요. 이 구조에서 토큰 사용량을 내 성과라고 끌어안는 건, 남의 매출 지표를 내 성과라고 착각하는 일과 다르지 않습니다.

토큰 대신 무엇을 봐야 하나

적게 쓰고 잘 쓰는 게 실력

앤트로픽이 공식 엔지니어링 블로그에서 권하는 원칙은 이렇습니다. 원하는 결과가 나올 가능성을 최대로 높이되, 신호가 분명한 정보만 가능한 한 적게 넣으라는 거죠. 토큰을 많이 욱여넣지 말고, 필요한 것만 정확히 골라 넣으라는 뜻이죠. 뜻입니다. 컨텍스트를 가득 채운다고 결과가 좋아지지 않습니다. 오히려 잡음이 끼면 정확도만 떨어지죠.

실제로 에이전트의 동작 환경을 제어하는 ‘하네스 엔지니어링’ 기술이 발전하며, 컨텍스트 주입과 성과 관리, 피드백에 대한 루프가 진화한 것도 '토큰을 많이 쓰면 좋다'는 믿음에 더 큰 의심을 키웠고요. 한국에서도 ‘토성비’, 그러니까 토큰 가성비라는 말이 생겼을 정도입니다. 토큰을 얼마나 썼느냐가 아니라 그 돈으로 무엇을 얻었느냐를 따지기 시작했다는 뜻입니다.

성과 측정은 새로운 숙제가 아니다

결국 다시 봐야 할 건 '토큰을 얼마나 썼나'가 아니라 '내가 풀려는 문제가 뭐고, AI가 내놓은 결과가 그 문제를 풀었나'입니다. 적은 토큰으로 목표를 이루도록 설계하는 능력, 그게 실력이라는 거죠.

그럼 ‘문제를 풀었나’를 어떻게 검증하냐고요? 결과와 목적 달성을 측정하는 일은 조직이 늘 해오던 일입니다. 코드를 몇 줄 썼는지로 개발자를 평가하면 쓸데없이 긴 코드만 양산된다는 걸 모두가 알고 있습니다. 그러니 AI가 왔다고 성과 측정을 바닥부터 새로 발명할 건 없습니다.

하던 대로 하면 됩니다. ‘이 사람은(또는 나는) 고객이나 조직의 어떤 문제를 풀었고, 그래서 제품과 회사에 얼마나 보탬이 됐는가?’ 이걸 평가하면 충분합니다.

마치며: 많이 쓰던 시대에서, 무엇을 풀었는지 묻는 시대로

토큰 맥싱의 시대가 그저 헛수고였던 것만은 아니라고 생각합니다. AI를 얼마나 쓰는지 줄 세우는 것만으로도, "AI는 무섭고 쓸모없다"던 사람들을 "안 쓰면 도태된다"는 쪽으로 밀어붙이는 역할은 했으니까요. 아직 아무도 AI를 안 쓰려는 회사라면, 이 리더보드가 여전히 제 역할을 할지도 모릅니다.

그러나 토큰맥싱은 끝났습니다. 더 정확히는, 토큰을 지표로 삼던 시대가 끝났습니다. 토큰은 앞으로도 계속, 어쩌면 더 많이 쓰일 테지만, 이제 그게 자랑거리는 아닙니다. 그러니 혹시 "아, 오늘도 사용 한도 다 채웠으니 열일했다"고 만족하던 분들은, 한 번 더 스스로 물어보면 어떨까요? 그 한도로 무엇을 바꿨는지를요.