[릴리즈노트]구글 클라우드 Vertex AI에서 Llama 4 MaaS 정식 출시 발표

3분

2025.04.30.

1.0K

※ 본문은 구글 개발자 블로그의 <Announcing the general availability of Llama 4 MaaS on Vertex AI>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.

요약
Meta의 최신 멀티모달 언어 모델 Llama 4가 Google Cloud Vertex AI에서 인프라 관리 없이 API만으로 바로 사용할 수 있는 완전관리형 서비스(MaaS)로 정식 제공됩니다.

1. Llama 4 MaaS 정식 출시

Meta가 개발한 최신 대형 언어 모델인 Llama 4가 구글 클라우드 Vertex AI에서 완전 관리형 모델 서비스(Model-as-a-Service, MaaS) 형태로 정식 공개됨
Llama 4 뿐 아니라 Llama 3.3 70B 모델도 Vertex AI에서 사용 가능함

2. Llama 4 주요 특징

이전 세대 Llama 대비 성능 대폭 향상, 멀티모달(이미지·텍스트 동시 처리) 작업 지원
Mixture-of-Experts(전문가 혼합) 구조로 높은 효율성과 단일 그래픽처리장치(GPU) 환경에서도 최적화된 동작 가능
'Llama 4 Scout': 모든 세대 중 가장 강력하면서 멀티모달 작업 효율성까지 제공
'Llama 4 Maverick': 추론, 복잡한 이미지 이해, 고도 생성 작업에 최적화된 지능형 모델

3. Vertex AI 내 Llama 4 MaaS 장점

인프라 관리 불필요: 클라우드가 GPU 관리, 패치, 유지보수 등 모든 인프라 운용 및 관리를 자동 수행
보장된 성능: 일정 요금으로 전용 처리용량 확보 시 고가용성 및 우선 처리 가능, 서비스 과부하 상황에서도 성능 유지
기업 수준 보안 및 규정 준수: 데이터 암호화, 접근 제어, 각종 규정 준수(컴플라이언스) 지원

4. 사용 방법 및 초기 설정

Vertex AI Model Garden에서 Llama 4 모델 카드 접속 → Llama 커뮤니티 라이선스 동의 → Llama 4 선정 및 고유 모델 ID 확인 → ChatCompletion API(채팅완성 프로그래밍 연동) 이용 가능
별도의 배포 과정 없이 API 엔드포인트 호출만으로 바로 사용 가능
파이썬 예제 코드 제공(구글 인증 토큰 및 오픈AI 연동 방식 포함)
모델별 입력·출력 형식, 지원 파라미터(온도, 최대생성토큰 등), 멀티모달 입력 포맷 등은 모델 카드 참조 필수

5. 비용 및 할당량(쿼터) 정책

API 사용량 기반 종량제 과금, 인프라 및 운영비 모두 API 단가에 포함됨
프로젝트별 분당 요청 건수 등 할당량(쿼터) 제한 적용 → 서비스 대규모 운영 시 반드시 쿼터 정책 숙지 필요
세부 요금 및 할당량 정보는 공식 요금 및 할당량 안내 페이지 참조

6. 요약 및 다음 단계

Vertex AI에서 Llama 4를 인프라 고민 없이 쉽고 확장성 있게 활용 가능
Model Garden에서 Llama 4 직접 체험, 사용설명서, 요금·쿼터 안내문 등 즉시 확인 가능
개발자 피드백 및 활용 사례는 구글 클라우드 커뮤니티에서 공유 가능