요즘IT
위시켓
콘텐츠프로덕트 밸리
요즘 작가들컬렉션물어봐
놀이터
콘텐츠
프로덕트 밸리
요즘 작가들
컬렉션
물어봐
놀이터
새로 나온
인기
개발
AI
IT서비스
기획
디자인
비즈니스
프로덕트
커리어
트렌드
스타트업
서비스 전체보기
위시켓요즘IT
고객 문의
02-6925-4867
10:00-18:00주말·공휴일 제외
yozm_help@wishket.com
요즘IT
요즘IT 소개작가 지원
기타 문의
콘텐츠 제안하기광고 상품 보기
요즘IT 슬랙봇크롬 확장 프로그램
이용약관
개인정보 처리방침
청소년보호정책
㈜위시켓
대표이사 : 박우범
서울특별시 강남구 테헤란로 211 3층 ㈜위시켓
사업자등록번호 : 209-81-57303
통신판매업신고 : 제2018-서울강남-02337 호
직업정보제공사업 신고번호 : J1200020180019
제호 : 요즘IT
발행인 : 박우범
편집인 : 노희선
청소년보호책임자 : 박우범
인터넷신문등록번호 : 서울,아54129
등록일 : 2022년 01월 23일
발행일 : 2021년 01월 10일
© 2013 Wishket Corp.
로그인
요즘IT 소개
콘텐츠 제안하기
광고 상품 보기
AI

[릴리즈노트]구글 클라우드 Vertex AI에서 Llama 4 MaaS 정식 출시 발표

AI입니다만
1분
2025.04.30.
1.0K
에디터가 직접 고른 실무 인사이트 매주 목요일에 만나요.
newsletter_profile0명 뉴스레터 구독 중

※ 본문은 구글 개발자 블로그의  <Announcing the general availability of Llama 4 MaaS on Vertex AI>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.

 

요약

Meta의 최신 멀티모달 언어 모델 Llama 4가 Google Cloud Vertex AI에서 인프라 관리 없이 API만으로 바로 사용할 수 있는 완전관리형 서비스(MaaS)로 정식 제공됩니다.

 

 

 

1. Llama 4 MaaS 정식 출시

  • Meta가 개발한 최신 대형 언어 모델인 Llama 4가 구글 클라우드 Vertex AI에서 완전 관리형 모델 서비스(Model-as-a-Service, MaaS) 형태로 정식 공개됨
  • Llama 4 뿐 아니라 Llama 3.3 70B 모델도 Vertex AI에서 사용 가능함

 

 

 

2. Llama 4 주요 특징

  • 이전 세대 Llama 대비 성능 대폭 향상, 멀티모달(이미지·텍스트 동시 처리) 작업 지원
  • Mixture-of-Experts(전문가 혼합) 구조로 높은 효율성과 단일 그래픽처리장치(GPU) 환경에서도 최적화된 동작 가능
  • 'Llama 4 Scout': 모든 세대 중 가장 강력하면서 멀티모달 작업 효율성까지 제공
  • 'Llama 4 Maverick': 추론, 복잡한 이미지 이해, 고도 생성 작업에 최적화된 지능형 모델

 

3. Vertex AI 내 Llama 4 MaaS 장점

  • 인프라 관리 불필요: 클라우드가 GPU 관리, 패치, 유지보수 등 모든 인프라 운용 및 관리를 자동 수행
  • 보장된 성능: 일정 요금으로 전용 처리용량 확보 시 고가용성 및 우선 처리 가능, 서비스 과부하 상황에서도 성능 유지
  • 기업 수준 보안 및 규정 준수: 데이터 암호화, 접근 제어, 각종 규정 준수(컴플라이언스) 지원

 

4. 사용 방법 및 초기 설정

  • Vertex AI Model Garden에서 Llama 4 모델 카드 접속 → Llama 커뮤니티 라이선스 동의 → Llama 4 선정 및 고유 모델 ID 확인 → ChatCompletion API(채팅완성 프로그래밍 연동) 이용 가능
  • 별도의 배포 과정 없이 API 엔드포인트 호출만으로 바로 사용 가능
  • 파이썬 예제 코드 제공(구글 인증 토큰 및 오픈AI 연동 방식 포함)
  • 모델별 입력·출력 형식, 지원 파라미터(온도, 최대생성토큰 등), 멀티모달 입력 포맷 등은 모델 카드 참조 필수

 

5. 비용 및 할당량(쿼터) 정책

  • API 사용량 기반 종량제 과금, 인프라 및 운영비 모두 API 단가에 포함됨
  • 프로젝트별 분당 요청 건수 등 할당량(쿼터) 제한 적용 → 서비스 대규모 운영 시 반드시 쿼터 정책 숙지 필요
  • 세부 요금 및 할당량 정보는 공식 요금 및 할당량 안내 페이지 참조

 

6. 요약 및 다음 단계

  • Vertex AI에서 Llama 4를 인프라 고민 없이 쉽고 확장성 있게 활용 가능
  • Model Garden에서 Llama 4 직접 체험, 사용설명서, 요금·쿼터 안내문 등 즉시 확인 가능
  • 개발자 피드백 및 활용 사례는 구글 클라우드 커뮤니티에서 공유 가능