그동안 대규모 AI 모델의 학습과 추론을 떠올리면, 자연스럽게 밑바닥의 인프라는 GPU(Graphics Processing Unit)를 연상했습니다. 실제로 지난 수년간 생성형 AI의 폭발적인 성장은 GPU 중심의 인프라 확장을 통해 가능했습니다. 그러나 구글이 최근 공개한 제미나이 3 시리즈는 이 공식에 균열을 내기 시작했죠. 구글은 단순히 모델의 성능이나, 파라미터 수를 강조하는 대신, 제미나이가 TPU(Tensor Processing Unit) 기반으로 학습됐다는 점을 반복적으로 말했습니다.

이번 글에서는 TPU는 무엇이며 왜 만들어졌는지, CPU와 GPU와는 어떤 근본적인 차이가 있는지 살펴보고, 제미나이 3 이후 TPU를 중심으로, AI 학습의 판도가 어떻게 변화하고 있는지를 정리할 예정입니다. 더 나아가 TPU뿐 아니라, NPU, DPU까지 포함해 오늘날 AI 가속기 지형을 하나의 흐름으로 살펴보겠습니다.

TPU란 무엇이며, 왜 만들어졌을까?

TPU(Tensor Processing Unit)는 구글이 설계하고, 미국 반도체 팹리스인 브로드컴이 파트너로 참여해 만든 텐서 처리 장치입니다. 이 TPU를 이해하려면, 먼저 텐서(tensor) 가 무엇인지부터 살펴봐야 합니다. 쉽게 말해 텐서는 하나의 숫자, 벡터, 행렬처럼 우리가 익숙한 수학적 표현을 차원 단위로 확장한 개념입니다.

0차원 텐서는 하나의 값, 1차원 텐서는 벡터, 2차원 텐서는 행렬이며, 이미지나 문장처럼 더 복잡한 데이터는 여러 차원의 텐서로 표현됩니다. 오늘날 AI 모델이 입력으로 받는 데이터와 내부에서 계산되는 값들은 대부분 이러한 텐서 형태로 다뤄집니다.

딥러닝의 학습과 추론 과정은 결국 텐서와 텐서 사이의 변환을 반복하는 작업입니다. 특히 대규모 AI 모델에서는 수많은 텐서 간의 행렬 곱 연산이 핵심을 이룹니다. CPU는 범용적인 제어와 다양한 연산을 처리하는 데 적합하지만, 이러한 대규모 행렬 연산을 반복적으로 수행하기에는 비효율적입니다. GPU는 병렬 연산에 강해 딥러닝의 성장을 이끌었지만, 그래픽 처리라는 범용 목적을 함께 안고 있다는 점에서 한계도 존재합니다.

TPU는 이러한 문제를 해결하기 위해 등장했습니다. 구글은 현대 AI 연산의 본질이 텐서, 그중에서도 행렬 곱에 있다는 점에 주목했고, 이를 가장 효율적으로 처리하기 위한 전용 칩을 설계했습니다. TPU는 복잡한 제어 로직을 최소화하고, 대규모 텐서 연산을 낮은 전력으로 빠르게 처리하는 데 집중한 구조를 갖고 있습니다. 이름 그대로 TPU는 ‘텐서를 처리하기 위해 태어난 프로세서’이며, 제미나이 3와 같은 초대형 AI 모델이 가능해진 배경에는 이러한 설계 철학이 자리하고 있죠.

TPU의 핵심 구성요소

TPU의 내부를 이해하려면, 이를 하나의 복잡한 CPU처럼 보기보다는 “텐서 연산을 위해 조립된 몇 가지 핵심 컴포넌트의 조합”으로 바라보는 것이 좋습니다. TPU는 범용 프로세서가 갖는 다양한 기능을 과감히 덜어내고, 딥러닝에서 가장 자주 수행되는 연산 흐름만을 남긴 구조를 가지고 있습니다.

TPU의 중심에는 시스톨릭 어레이(Systolic Array)가 자리 잡고 있습니다. 아래 그림에서 보듯이, 행렬 A와 행렬 B를 곱하면 결과 행렬 C가 만들어집니다. 이때 C의 각 값은 A의 한 행과 B의 한 열을 각각 곱한 뒤 더해서 계산됩니다. 즉, 같은 형태의 곱하고 더하는 계산이 매우 많이, 그리고 반복적으로 발생합니다.

시스톨릭 어레이는 이 반복적인 계산을 가장 효율적으로 처리하기 위해 고안된 구조입니다. 수백에서 수천 개의 아주 작은 계산기(MAC 유닛)를 바둑판처럼 배열해 두고, A의 값은 왼쪽에서 오른쪽으로, B의 값은 위에서 아래로 리듬감 있게 흘려보냅니다. 각 칸에 있는 계산기는 값이 지나갈 때마다 “곱하고 더하기”를 한 번씩 수행하고, 그 결과를 다음 칸으로 넘깁니다. 마치 공장에서 컨베이어 벨트 위를 부품이 이동하며 조립되는 것과 비슷한 모습입니다.

이 구조의 가장 큰 장점은 중간 계산 결과를 매번 메모리에 저장했다가 다시 불러오지 않아도 된다는 점입니다. 일반적인 방식에서는 계산할 때마다, 데이터를 메모리에서 꺼내고 다시 저장해야 하는데요. 이 과정은 생각보다 많은 시간과 전력을 소모합니다. 반면, 시스톨릭 어레이에서는 데이터가 칩 내부를 계속 흘러 다니며 계산되기 때문에, 연산이 끝날 때까지 메모리를 오가는 횟수가 크게 줄어듭니다.

이 시스톨릭 어레이의 장점을 극대화하기 위해 함께 설계된 것이 온칩 메모리(On-chip Memory)입니다. TPU는 대용량 캐시 계층을 복잡하게 쌓는 대신, 행렬 곱에 필요한 입력 데이터와 가중치를 칩 가까이에 배치해 데이터 이동 거리를 최소화합니다. 그 결과, 시스톨릭 어레이에서 흘러가는 데이터가 외부 메모리에 거의 의존하지 않고, 연속적으로 처리될 수 있습니다.

이러한 구조 덕분에 TPU는 전력 소모를 줄이면서도 행렬 곱 연산을 안정적인 속도로 오래 유지할 수 있습니다. 즉, TPU의 전력 대비 성능이 뛰어난 이유는 시스톨릭 어레이라는 계산 방식과, 이를 뒷받침하는 온칩 메모리 설계가 함께 작동하기 때문이라고 볼 수 있습니다.

또 하나 중요한 요소는 저정밀도 연산 유닛입니다. TPU는 모든 계산을 아주 높은 정확도로 처리하기보다는, AI에 충분한 정확도를 유지하면서도 더 빠르고 효율적으로 계산하는 방식을 선택합니다. 이를 위해 일반적인 컴퓨팅에서 많이 사용하는 FP32 대신, BF16이나 INT8처럼 더 단순한 숫자 표현을 적극 활용합니다.

AI 모델은 계산 하나하나가 완벽히 정확할 필요는 없습니다. 수많은 데이터를 반복적으로 계산하며 패턴을 학습하기 때문에, 약간의 오차가 있더라도 전체 결과에는 큰 영향을 주지 않는 경우가 많습니다. 오히려 이런 특성을 잘 활용하면, 계산 속도는 빨라지고 전력 소모는 줄일 수 있습니다. TPU는 바로 이 지점을 겨냥해, 낮은 정밀도의 연산을 하드웨어 차원에서 자연스럽고 안정적으로 처리하도록 설계되었습니다.

이처럼 시스톨릭 어레이, 온칩 메모리, 저정밀도 연산 유닛을 함께 살펴보면 TPU의 성격이 분명해집니다. TPU는 여러 작업을 두루 잘 처리하는 만능칩이 아니라, AI 연산이라는 한 가지 목적을 가장 효율적으로 수행하기 위해 조립된 특수 목적 장치에 가깝습니다. 그리고 이러한 ‘집중된 설계 철학’이 바로 GPU와 TPU를 가르는 가장 본질적인 차이라고 할 수 있습니다.

TPU의 소프트웨어 스택

TPU는 칩 자체만으로 완성되는 하드웨어가 아니라, 이를 전제로 설계된 소프트웨어 스택과 함께 작동할 때 진가를 발휘합니다. 그 중심에 있는 것이 바로 JAX입니다. JAX는 TPU의 시스톨릭 어레이와 같은 하드웨어 특성을 소프트웨어 차원에서 가장 효과적으로 활용할 수 있도록 설계된 프레임워크입니다.

JAX 파이썬 라이브러리 프로젝트 <출처: https://github.com/jax-ml/jax>

JAX는 겉보기에는 NumPy와 유사한 파이썬 라이브러리처럼 보이지만, 내부적으로는 사용자가 작성한 수치 연산 코드를 계산 그래프로 변환합니다. 이렇게 만들어진 그래프는 XLA(Accelerated Linear Algebra) 컴파일러를 통해 분석되고, TPU에 최적화된 저수준 연산 형태로 컴파일되어 실행됩니다. 개발자는 익숙한 파이썬 코드로 모델을 작성하지만, 실제 실행 단계에서는 TPU가 가장 잘 처리할 수 있는 형태로 변환되는 구조입니다.

TPU의 온칩 메모리 설계 역시 JAX와 XLA와 긴밀하게 연결되어 있습니다. XLA는 연산 순서를 재배치하고, 불필요한 메모리 접근을 줄이도록 계산 그래프를 최적화함으로써, TPU가 시스톨릭 어레이를 최대한 효율적으로 활용할 수 있도록 돕습니다. 그 결과, TPU는 단순히 연산 유닛이 빠른 칩이 아니라, 연산과 메모리 흐름이 함께 설계된 하나의 계산 시스템으로 동작하죠.

하드웨어별 작동 원리 비교: CPU vs GPU vs TPU

CPU, GPU, TPU는 모두 연산을 수행하는 프로세서이지만, 설계 목적과 작동 방식은 크게 다릅니다. 이 차이는 곧 각 하드웨어가 맡는 역할과 사용 사례의 차이로 이어집니다.

1) CPU

CPU는 범용 프로세서로, 운영체제와 애플리케이션 로직처럼 복잡한 제어 흐름을 처리하는 데 최적화되어 있습니다. 소수의 강력한 코어를 중심으로 순차적인 연산과 분기 처리를 빠르게 수행할 수 있지만, 동일한 연산을 대량으로 반복하는 작업에는 효율이 떨어집니다. AI 시스템에서는 모델 학습보다는 전체 시스템을 제어하고, 데이터 처리와 서비스 로직을 담당하는 역할을 주로 맡습니다.

2) GPU

GPU는 수천 개의 연산 유닛을 동시에 활용하는 병렬 구조를 바탕으로, 대규모 행렬 연산에 강점을 보입니다. 이 특성 덕분에 딥러닝 학습과 추론의 표준 가속기로 자리 잡았습니다. 다만 GPU는 여전히 범용 병렬 프로세서이기 때문에, 그래픽 처리라는 태생적 목적과 다양한 연산을 함께 고려해야 하는 구조적 복잡성을 가지고 있습니다.

3) TPU

TPU는 처음부터 딥러닝 연산을 위해 설계된 전용 가속기입니다. 복잡한 제어를 최소화하고, 시스톨릭 어레이 구조를 통해 대규모 행렬 곱을 효율적으로 처리하도록 만들어졌습니다. 이로 인해 전력 대비 성능과 대규모 확장성에서 강점을 가지며, 제미나이 3처럼 초대형 모델을 장기간 학습시키는 환경에 특히 적합합니다.

결국 CPU는 시스템을 조율하는 역할, GPU는 범용적인 AI 연산 가속, TPU는 대규모 AI 학습에 특화된 역할을 맡습니다. 오늘날의 AI 인프라는 이들 하드웨어가 서로를 대체하기보다는, 각자의 강점을 살려 함께 사용되는 방향으로 발전하고 있습니다.

앞서 설명한 내용을 기반으로 CPU, GPU, TPU의 역할, 작동 원리, 사용 사례를 한눈에 비교한 테이블입니다.

확장되는 AI 가속기 생태계: NPU와 DPU

TPU와 더불어 AI 가속 환경 구축을 위한 NPU(Neural Processing Unit)와 DPU( Data Process Unit)도 많이 회자되고 있습니다. TPU는 제미나이 3처럼 대규모 AI 모델의 학습과 고성능 추론을 중심으로 회자가 되지만, NPU와 DPU는 AI 연산 이후의 확장 단계에서 중요성이 커지며 주목받고 있죠.

GPU와 TPU가 AI 연산의 중심이라면, NPU와 DPU는 그 주변을 받쳐 주는 핵심 구성 요소입니다. AI 모델이 대형화되고 적용 범위가 데이터센터를 넘어 엣지와 분산 인프라로 확장되면서, 하나의 가속기로 모든 요구를 만족시키기 어려워졌기 때문입니다. 최근 AI 가속기 생태계가 빠르게 확장되는 이유도 연산 성능뿐 아니라 시스템 전체의 효율과 확장성이 중요해졌기 때문입니다.

신경망 처리 장치(NPU: Neural Processing Unit)는 스마트폰, 자동차, IoT 기기처럼 전력 소모와 지연 시간이 민감한 환경을 위해 설계된 가속기입니다. GPU나 TPU가 대규모 모델 학습과 고성능 추론을 담당한다면, NPU는 상대적으로 작은 모델을 빠르게 실행하는 데 초점을 둡니다. 얼굴 인식이나 음성 인식처럼 즉각적인 반응이 필요한 기능을 디바이스 내부에서 처리함으로써, 응답 속도를 높이고 개인정보가 외부로 전송되는 부담을 줄입니다. NPU는 AI를 클라우드에서 사용자 가까이로 끌어오는 역할을 합니다.

데이터 처리 장치(DPU: Data Processing Unit)는 직접 AI 연산을 수행하지 않지만, 대규모 AI 인프라에서 점점 더 중요해지고 있습니다. AI 학습과 추론 과정에서는 막대한 데이터가 네트워크와 스토리지를 오가며, 이 과정에서 발생하는 패킷 처리, I/O, 보안 작업이 CPU의 부담으로 작용합니다. DPU는 이러한 작업을 전담함으로써 CPU를 해방시키고, GPU와 TPU가 연산에 집중할 수 있도록 돕습니다.

결과적으로 현대 AI 인프라는 GPU와 TPU가 핵심 연산을 맡고, NPU는 엣지에서 실시간 추론을 수행하며, DPU는 데이터 흐름과 보안을 책임지는 구조로 진화하고 있습니다. 이는 GPU나 TPU가 부족해서가 아니라, AI가 더 넓은 환경으로 확산되면서 역할 분담이 필연적으로 필요해졌기 때문입니다. AI 경쟁의 초점은 이제 단일 가속기의 성능을 넘어, 이러한 가속기들이 얼마나 잘 결합되는 가로 이동하고 있습니다.

마치며: TPU는 AI 인프라의 주권을 변화시킬까?

TPU의 등장은 단순히 새로운 AI 가속기의 등장으로만 해석하기 어렵습니다. 이는 AI 모델의 성능 경쟁이 하드웨어와 소프트웨어 스택 전반으로 확장되고 있음을 보여주는 사례이자, 특정 기업이 AI 인프라 전반을 얼마나 깊이 통제할 수 있는가에 대한 질문을 던집니다. 구글은 TPU를 통해 칩 설계부터 컴파일러, 프레임워크, 데이터센터 인프라까지 하나의 수직적 스택을 구축했고, 제미나이 3는 그 결과물이 집약된 사례라고 볼 수 있습니다.

다만 TPU가 곧바로 AI 인프라의 주권을 단숨에 바꿀 것이라고 단정하기는 어렵습니다. GPU는 여전히 폭넓은 생태계와 높은 접근성을 바탕으로, AI 연구와 산업 전반에서 중심적인 위치를 차지하고 있습니다. 또한 TPU는 구글의 클라우드와 소프트웨어 스택에 강하게 결합되어 있어, 개방성과 범용성 측면에서는 제한이 존재합니다. 이는 TPU가 모든 기업과 조직의 선택지가 되기보다는, 특정 전략과 규모를 가진 환경에 최적화된 해법임을 의미합니다.

그럼에도 불구하고 TPU가 던지는 메시지는 분명합니다. 초대형 AI 모델 시대에는 단일 하드웨어의 성능보다, 하드웨어와 소프트웨어를 얼마나 긴밀하게 통합해 운영할 수 있는지가 경쟁력을 좌우하게 됩니다. TPU는 이 방향의 가능성을 보여주는 대표적인 사례이며, AI 인프라의 주권은 점차 범용 가속기 중심 구조에서 벗어나, 각 기업이 선택한 스택과 전략에 따라 다층적으로 분화될 가능성이 큽니다. 결국 TPU는 AI 인프라의 주권을 대체한다기보다, 그 개념 자체를 재정의하는 계기가 되지 않을까요?