AI 데이터센터는 어떻게 만들어질까?
AI 인프라의 급부상
3월 25일 챗GPT 이미지 생성기능 도입 이후 전세계가 또다시 챗GPT 열풍에 빠졌다. 이번에는 일본의 유명 애니메이션 스튜디오 지브리 풍 이미지 생성이 주목받으며 관련 사용자 및 사용량이 또다시 폭등하고 있다는 뉴스가 전 세계를 뒤흔들었다.
이 와중에 오픈AI의 수장인 샘 알트만은 흥미로운 트윗을 하나 올린다.
사람들이 챗GPT의 이미지 생성을 즐기는 모습을 보는 건 정말 즐거운 일이지만 우리의 GPU는 녹아 내리고 있다.

이미지 생성 이용량이 폭증하며 서비스를 담당하는 GPU가 말 그대로 '녹고' 있다는 것이다. 알트만은 이어 서비스 효율을 개선하는 동안 일시적으로 이용 제한을 도입할 것이라고 언급했다.
이는 현재 AI 서비스의 근간을 이루는 AI 인프라와 관련한 데이터센터가 여전히 미래 컴퓨팅 수요에 비해 턱없이 부족할 수 있음을 보여주는 대표적인 사례이다. 몇 초 만에 사용자가 원하는 이미지를 생성하는 간단한 기능 하나가 수십억 달러 규모의 인프라에 즉각적인 부담을 줄 수 있는 현실인 것이다.
AI 데이터센터란 과연 무엇일까? 어떤 형태로 이뤄지며 어느 정도의 투자가 진행되고 있을까? 오늘은 AI 시대에 없어서는 안 될 핵심 인프라라, AI 데이터센터에 대해 알아보고자 한다.
2030년 글로벌 AI 데이터센터 수요 전망
클라우드, IoT, 빅데이터 분석의 확산은 비즈니스 모델을 변화시키고 전 산업에 걸쳐 데이터 기반 서비스의 채택을 가속화하고 있다. 글로벌 데이터 생성량은 IoT, 소셜 미디어, 모바일 기술의 확장과 서비스의 디지털화로 폭발적으로 증가해 2025년까지 181 제타바이트에 이를 것으로 예상된다. 이러한 대규모 데이터 확장은 클라우드 컴퓨팅, AI/ML, 팬데믹 이후의 디지털 전환으로 더욱 가속화되어, 방대한 양의 데이터를 실시간으로 관리, 처리, 보호할 수 있는 확장 가능한 인프라에 대한 수요를 증가시키고 있다.

이러한 배경 속에서, 맥킨지의 분석에 따르면 2023년 약 60GW 규모였던 전 세계 데이터센터 용량은 2030년까지 170~220GW 수준으로 3배 이상 증가할 전망이다. AI 도입이 예상보다 빠르게 진행된다면 최대 300GW까지 치솟을 수도 있다. 특히 주목할 점은 2030년 전체 데이터센터 용량 중 약 70%가 AI 워크로드를 처리하는 시설이 될 것이며, 그중에서도 생성형 AI가 40%가량을 차지할 것이라는 예측이다.
이러한 수요 증가에 발맞추려면 과거 수십 년간 건설한 데이터센터 총량의 2배를 향후 5~6년 내에 지어야 한다. 그러나 현재 발표된 증설 계획으로는 2030년 미국에서만 15GW 이상의 용량 부족이 예상된다. 이는 전례 없는 규모의 인프라 과제로, 건설 속도와 전력 공급이 주요 병목 요인이 될 것이다.
데이터센터의 4대 핵심 요소
언어 모델과 이미지 생성 시스템과 같은 생성형 AI는 방대한 데이터 처리량과 연산 능력을 다룰 수 있는 고성능 컴퓨팅(High Performance Computing, 이하 HPC) 환경을 필요로 한다. 일반 컴퓨팅을 위해 설계된 과거의 데이터센터는 이러한 최신 AI 워크로드의 수요를 처리하기에 역부족이다. AI에 필요한 HPC 환경은 기존 데이터센터의 환경과 크게 다르며, 더 큰 규모로 운영되고 더 고급 인프라를 요구한다.
AI 데이터센터는 하드웨어(GPU), 전력, 냉각 시스템, 네트워킹이라는 4대 핵심 요소를 중심으로 구성된다. 기존 데이터센터와 달리 이 요소들은 AI 워크로드에 맞춰 대규모로 확장되고 더 복잡한 형태로 구현된다. 여기에는 GPU와 같은 특수 하드웨어, 강력한 계산 요구를 지원할 수 있는 전원 공급 장치, 향상된 냉각 시스템이 포함된다.
또한 높은 가동 시간과 낮은 지연 시간은 연속적이고 실시간 처리 및 원활한 운영을 보장하는 데 매우 중요하므로, 고급 네트워킹 솔루션도 AI 데이터센터에 필수적이다. 이러한 복잡한 시스템을 구현하고 유지 관리하려면 고도로 숙련된 전문 인력이 반드시 필요하다. 엔지니어들은 각 구성요소 간의 복잡한 상호작용을 이해하고 최적화하여 AI 인프라를 성공적으로 배포하고 운영하는 역할을 담당한다.
1. 하드웨어(GPU)
AI에 필요한 특수 하드웨어, 특히 엔비디아의 호퍼 및 블랙웰 시리즈와 같은 하이엔드 GPU는 기존 데이터센터의 범용 CPU와는 완전히 다른 접근법을 취한다. 이 GPU들은 AI용 대규모 모델을 효율적으로 학습하고 실행하기 위한 핵심 요건인 병렬 처리를 위해 특별히 설계되었다. 현재 NVIDIA가 88%의 시장 점유율로 독보적인 위치를 차지하고 있으며, AMD, 삼바노바, 세레브라스 등의 회사들이 시장 점유율을 높이기 위해 경쟁하고 있다.
2. 전력
AI 데이터센터는 AI 워크로드를 지원하는 데 필요한 고성능 컴퓨팅 환경으로 인해 기존 데이터센터에 비해 훨씬 더 많은 전력을 필요로 한다. 기존 서버 랙은 일반적으로 랙당 약 12- 13kW의 전력을 소비하는 반면, GPU와 같은 특수 하드웨어를 수용하는 AI 서버 랙은 랙당 50 - 60kW를 소비할 수 있다.
이러한 전력 수요의 상당한 증가는 AI 데이터센터에 더 많은 인프라가 필요하다는 것을 보여준다. 예를 들어, 미국 가정에서는 1년에 평균적으로 약 1.25kW의 에너지를 사용한다. 이는 하나의 AI 서버 랙이 미국 가정 약 40곳과 동일한 양의 에너지를 소비할 수 있음을 의미한다. 특히 AI 워크로드가 확장됨에 따라 최근 등장한 새로운 하이퍼스케일 데이터센터는 1GW(1,000,000kW) 이상의 전력을 소비하도록 설계되고 있으며, 일부 서버 랙은 최대 100kW 이상의 전력을 필요로 할 것으로 예상된다.
3. 냉각 시스템
AI 워크로드의 연산 강도는 상당한 열을 발생시키므로 효율적인 냉각 솔루션이 필수적이다. 냉각은 데이터센터 전력 소비의 약 30%를 차지한다. 고밀도 환경에서는 기존의 공랭식 냉각 시스템으로는 충분하지 않다.
- 액체 냉각: 이 기술은 GPU 칩에 직접 부착된 냉각판을 통해 냉각수를 순환시켜 공랭식보다 더 효율적으로 열을 흡수한다. 액체 냉각 시스템은 더 비싸고 복잡하지만 밀집된 AI 환경에서 더 나은 성능을 제공한다.
- 침수 냉각: GPU 및 기타 구성 요소를 비전도성 액체에 담그는 최첨단 방식이다. 이 방식은 냉각 효율이 가장 높지만 설치 및 유지보수가 복잡하고 비용이 많이 든다. 밀도가 증가함에 따라 침수 냉각은 하이엔드 HPC 데이터 센터에서 더욱 보편화될 수 있다.

높은 비용과 복잡도에도 불구, 액체 냉각과 침지 냉각 모두 냉각 전력 소비를 최대 60%까지 줄일 수 있으며 AI에 필요한 높은 전력 밀도를 처리하는 데 더 적합하다. HPC를 운영하는 하이퍼스케일러들은 이러한 새로운 냉각 방법 채택에 있어 가장 적극적인 상황이다.
4. 네트워킹
AI 워크로드는 GPU와 기타 처리 장치 간에 전송되는 엄청난 양의 데이터를 처리하기 위해 고속, 저지연 네트워킹 솔루션이 필요하다. 이 분야에서는 InfiniBand 및 고속 이더넷과 같은 기술이 선두를 달리고 있다.
InfiniBand는 초저지연, 높은 처리량, 네트워크 내 컴퓨팅 기능으로 데이터 흐름을 최적화하고 AI 모델 학습 및 추론을 가속화한다. 이더넷은 비용 효율성과 확장성, 특히 새로운 AI 최적화 이더넷 솔루션으로 인해 AI 워크로드에 널리 사용되고 있다.
또한 고속의 효율적인 네트워킹만으로는 충분하지 않고, AI 데이터센터는 높은 가동 시간(99.99% 이상)도 달성해야 한다.
AI 훈련과 추론의 차이 및 데이터센터 설계에 미치는 영향
AI 워크로드는 크게 모델 훈련(Training)과 추론(Inference) 서비스로 나뉘며, 각각 데이터센터 설계에 상이한 요구사항을 가져온다.
훈련(Training)의 특징
- 특성: 모델의 가중치를 조정하는 과정으로, 연산 집약적이고 장시간 지속된다.
- 리소스 요구: 한 모델에 수천 개 이상의 GPU가 필요하며, 고대역폭 메모리와 GPU 간 초고속 네트워크가 중요하다.
- 트래픽 패턴: 내부 GPU 간 통신이 지배적인 동서(East-West) 방향 트래픽이 주를 이룬다.
- 위치 선택: 사용자와의 거리보다는 전력과 냉각이 풍부한 지역이 선호된다.
- 신뢰성 요구: 일시 중단되어도 재시작하거나 체크포인트부터 이어갈 수 있어, 상대적으로 낮은 가용성 요구사항을 가진다.
- GPU 활용률: 평균 80~90%로 매우 높다.
추론(Inference)의 특징
- 특성: 이미 훈련된 모델로 새로운 입력에 대한 결과를 실시간 산출하는 과정으로, 지연시간(latency)이 매우 중요하다.
- 리소스 요구: 요청당 수 개~수십 개 이하의 GPU만 사용되지만, 수많은 동시 사용자 요청을 처리해야 한다.
- 트래픽 패턴: 외부 사용자 요청을 처리하는 북남(North-South) 방향 트래픽이 중요하다.
- 위치 선택: 사용자와의 지연시간을 최소화하기 위해 인터넷 교환점 근처나 대도시 인근에 위치한다.
- 신뢰성 요구: 실시간 서비스를 제공하므로 고가용성(HA)이 필수적이며, 이중화 전원과 무정지 설계가 중요하다.
- GPU 활용률: 피크 부하를 대비한 여유가 필요해 평균 50~60% 수준이다.
이러한 차이로 인해 데이터센터 설계도 훈련 특화형과 추론 특화형으로 구분된다. 훈련 센터는 "한 프로젝트에 최고 사양을 몰아 쓰기", 추론 센터는 "수많은 요청을 지연 없이 동시 처리"에 최적화된다.
분석에 따르면 "향후 AI 인프라 투자의 대부분은 추론에 쓰일 것"이라는 전망도 있다. 이는 훈련된 거대 모델을 실제 서비스에 배포하려면 전 세계 수십억 사용자의 추론 요청을 처리할 방대한 서버망이 필요하기 때문이다.
데이터센터 건설: 부지 선정부터 완공까지
부지 선정
AI 데이터센터 구축의 첫 단계는 적합한 부지를 선정하는 것이다. 대규모 AI 클러스터는 엄청난 전력을 소비하기 때문에, 안정적이고 풍부한 전력 공급이 가능한 지역이 최우선적으로 고려된다. 이러한 이유로 최신 AI 훈련 전용 데이터센터는 인디애나, 아이오와, 와이오밍처럼 전력이 풍부한 지역이나 발전소 인근에 세워지는 경향이 있다.
또한 냉각에 유리한 기후(자연풍이나 낮은 기온 활용), 지진이나 홍수 위험이 낮은 안정적인 지반, 그리고 광섬유 네트워크 접근성도 중요한 고려 사항이다. 반면 AI 모델 추론을 위한 시설은 사용자와의 지연 시간을 최소화하기 위해 대도시 인근에 위치하는 경우가 많다.
설계 및 인허가
부지가 결정되면 설계 및 인허가 단계에 들어간다. 이 과정은 디자인 도면 작성과 각종 인허가 절차를 포함해 수개월에서 1년 이상 소요될 수 있다. 특히 전력 수요가 극도로 높은 AI 데이터센터의 경우, 지역 전력망과의 연계 협의가 핵심이다.
건설 단계: 건물과 인프라 구축
설계가 확정되면 본격적인 건설이 시작된다. 이 단계에서는 건물 공사와 함께 초고압 전력 인입, 변전설비, 비상 발전기, 냉각 시스템 설치 등 기반 인프라가 구축된다.
AI 데이터센터의 특징적인 요소는 랙당 소비전력이 일반 데이터센터보다 훨씬 높다는 점이다. 따라서 이러한 고밀도 환경에서는 일반 공기 냉각으로는 효율적인 열 관리가 불가능하다. 대신 액체 냉각(칩에 직접 냉각판을 부착), 침수 냉각(서버를 비전도성 액체에 담그는 방식) 등의 고급 냉각 기술이 도입된다.
장비 설치 및 네트워킹
건물이 완공되면 랙과 서버 장비의 설치 및 네트워킹 단계가 진행된다. 수천 대 이상의 서버 랙을 배치하고, 각 랙마다 상면(Top-of-Rack) 스위치와 광섬유 케이블로 고속 네트워크를 구성한다.
시운전 및 테스트
마지막으로 시운전 및 테스트 단계에서 전력, 냉각, 보안 시스템과 서버 클러스터를 종합적으로 점검한다. 각 랙의 전원이 안정적인지, 냉각수 흐름은 적절한지, 서버와 네트워크 장비가 모두 정상 동작하는지 수 주에 걸쳐 테스트를 시행하고, 문제가 없으면 운영에 들어간다.
AI 데이터센터 구축 비용과 투자 규모 분석
CAPEX (자본적 지출) 내역
AI 데이터센터를 짓는 데는 막대한 자본적 지출이 필요하다. 일반적으로 데이터센터 건설 비용은 전력 용량 1메가와트(MW)당 약 1,000만 달러(약 1,300억 원) 수준이지만, AI 같은 고밀도 센터는 MW당 2,000만 달러 이상으로 두 배 가까이 비용이 든다.
투자 비용의 구성을 살펴보면, IT 장비 특히 GPU 구매 비용이 차지하는 비중이 매우 높아 전체 CAPEX의 약 40- 50%에 달한다. 건물과 전력 인프라, 냉각 설비 등의 시설 비용은 대략 20 - 30% 수준으로 추산되며, 나머지가 CPU·스토리지 등 기타 장비 및 설치비이다.
1,000MW(1GW) 용량의 하이퍼스케일 AI 데이터센터를 예로 들어 비용을 계산해보면, 각 랙에 약 8개의 GPU가 장착되어 있고 GPU 가격이 3만 - 4만 달러라고 가정할 때, GPU 비용만 40억 - 60억 달러에 달한다. 여기에 냉각 시스템 설치 비용(액체 냉각 시스템의 경우 10억~20억 달러 추가), 배전 및 네트워킹 인프라 비용까지 더하면 총 투자액은 천문학적 규모가 된다.
OPEX (운영 비용) 내역
데이터센터 건립 후 운영 단계에서는 지속적 운영비용이 발생한다. OPEX의 주요 항목으로는 전기요금, 유지보수 인력 인건비, 상면 임대료(콜로케이션 사용 시), 냉각수 및 시설 관리비 등이 있다.
일반 데이터센터의 경우 유지보수 인력이 차지하는 운영비 비중이 40% 내외로 가장 크고, 전력 비용이 15~25%, 그 외 임대료와 기타 경비로 구성된다. AI 데이터센터는 연산 밀도가 높아 전력비 비중이 다소 늘 수 있지만, 동시에 자동화 운영을 도입해 인건비를 최적화하는 추세이다.
업계의 대규모 투자 계획
현재 발표된 AI 데이터센터 투자 계획의 규모는 과거와 비교할 수 없을 정도로 방대다. 마이크로소프트는 2025년 한 해에만 800억 달러(약 105조 원)를 AI 인프라에 투자하고, 메타는 연간 650억 달러, 구글은 750억 달러를 투자할 계획이며, 아마존도 AI 데이터센터에 1,000억 달러를 투입하겠다고 밝혔다.
또한 오픈AI와 소프트뱅크 등이 협력하는 '프로젝트 스타게이트'는 향후 4년간 최대 5,000억 달러를 투자해 미국 전역에 AI 데이터센터를 건설한다는 야심찬 계획을 발표했다. 이는 AI 인프라 경쟁이 국가 간, 기업 간 전략적 우위를 결정하는 핵심 요소로 부상했음을 시사한다.

최신 AI 데이터센터 프로젝트 사례
프로젝트 스타게이트
오픈AI와 소프트뱅크 등이 협력하는 초대형 AI 인프라 계획이다. 2025년 1월 공개된 이 프로젝트는 향후 4년간 최대 5,000억 달러를 투자하여 미국 전역에 첨단 AI 데이터센터를 구축하는 것을 목표로 한다.
첫 번째 캠퍼스로 텍사스주 애빌린에 각 4.6만㎡ 규모 건물 10개(추후 20개까지 확장)를 건설 중이다. 부지 면적 404만㎡에 랜시움 클린 캠퍼스(Lancium Clean Campus)라는 친환경 에너지 단지가 함께 조성되며, 360MW 규모 천연가스 발전소와 대규모 태양광·배터리 설비도 설치된다.
크루소 AI 캠퍼스
스타게이트와 연계된 크루소 시스템즈(Crusoe Systems)의 대규모 AI 데이터센터 캠퍼스이다. 2024년 6월 2개 동(9만㎡, 200MW)을 착공하여 2025년 초 가동을 목표로 하고, 2025년 3월에는 추가 6개 동 착공을 발표했다. 최종 규모는 8개 동, 연면적 37만㎡, 전력용량 1.2GW으로, 완공 시 단일 캠퍼스로는 세계 최대급 AI 데이터센터가 될 전망이다.

각 건물은 엔비디아(NVIDIA) GB200 NVL 계열 GPU 최대 5만 개까지 하나의 통합 네트워크로 묶을 수 있게 설계되어, 8개 동이면 이론상 최대 40만 개 GPU를 수용할 수 있다. 크루소 CEO는 이를 "AI 팩토리"라고 칭하며, 인간 지능 확장을 가속화할 핵심 인프라가 될 것임을 강조하고 있다.
결론: AI 인프라의 새로운 시대
AI 데이터센터는 현대의 전력 인프라, 통신 인프라와 동등한 전략적 중요성을 가진 국가 및 기업 경쟁력의 핵심 자산으로 부상했다. 초대형 언어 모델, 멀티모달 AI, 첨단 시뮬레이션 등 차세대 AI 기술이 발전함에 따라 이를 지원할 수 있는 인프라의 중요성은 더욱 커질 것이다.
지금까지 살펴본 바와 같이, AI 데이터센터는 기존 IT 워크로드를 처리하던 데이터센터와는 근본적으로 다른 설계 철학과 기술적 요구사항을 가지고 있다. 랙당 10배 이상의 전력 밀도, 액체 냉각과 같은 고급 냉각 기술, 초고속 네트워킹, 그리고 무엇보다 수천 개의 GPU를 효율적으로 연결하고 활용하는 능력이 핵심 경쟁력이 되었다.
AI 데이터센터 구축은 더 이상 단일 기업의 역량만으로는 해결하기 어려운 복잡한 과제가 되었다. 하드웨어 제조사, 클라우드 제공업체, 전력회사, 부동산 개발사, 심지어 정부까지 다양한 이해관계자들의 협력이 필수적이다. 이러한 생태계적 접근이 AI 인프라의 새로운 패러다임이 되고 있다. 결과적으로 AI 데이터센터는 단순한 물리적 인프라를 넘어 국가 안보, 경제 경쟁력, 그리고 디지털 주권의 문제와도 긴밀히 연결될 수밖에 없는 것이다. 각국 정부가 AI 인프라 확보를 위한 정책적 지원을 강화하는 이유가 바로 여기에 있다.
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.