AI
[릴리즈노트]동영상을 이해하는 제미나이(Gemini) 2.5 Pro/Flash 모델 발표
4분
8시간 전566
※ 본문은 구글의 <Advancing the frontier of video understanding with Gemini 2.5>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.

1. 제미나이 2.5 Pro/Flash 모델 출시 및 성능
- 구글은 제미나이 2.5 Pro 프리뷰(2025년 5월 6일)와 제미나이 2.5 Flash(2025년 4월 17일) 모델을 새롭게 공개함
- 두 모델 모두 동영상 이해 능력이 크게 향상됨
- 제미나이 2.5 Pro는 주요 동영상 이해 벤치마크에서 경쟁 모델(GPT 4.1 등)을 능가하는 최고 수준의 성능을 기록함 (테스트 조건 동일, 동일한 문장 및 프레임 수 사용)
- 일부 전문 모델(YouCook2, QVHighlights 등)을 뛰어넘는 결과도 달성함
- 비용에 민감한 활용 사례엔 제미나이 2.5 Flash가 경쟁력 있는 대안으로 제시됨

2. 동영상-코드 융합 멀티모달 처리
- 제미나이 2.5는 처음으로 오디오·비디오·코드·기타 다양한 데이터 형식을 자연스럽게 동시에 다룸
- 복수의 입력 형식을 연계해 복잡한 동영상 이해 관련 문제 해결 가능
3. 동영상에서 상호작용형 애플리케이션 자동 생성
- 'Video To Learning App'(AI Studio 제공 예시) 활용 시, 유튜브 주소와 분석 방향(문장 형태의 목적 설명)을 입력하면 제미나이 2.5 Pro가 동영상 내용 분석 및 교육용 앱 설계안을 생성함
- 설계안은 다시 모델에 입력돼 바로 기능 코드를 자동 작성함(예: 시뮬레이터 앱 자동 생성)
- 제미나이 2.5 Flash 역시 유사 활용 가능

4. 동영상을 애니메이션으로 자동 변환
- 하나의 문장만으로 동영상의 키포인트·랜드마크 등을 p5.js 기반 애니메이션으로 변환 가능
- 예시: 프로젝트 아스트라 영상 내 장소 변화를 시간 순서대로 애니메이션화

5. 동영상 내 특정 순간 추출·설명
- 제미나이 2.5 Pro는 오디오와 비디오 정보를 모두 활용해 동영상 내 특정 장면 탐색/설명 능력이 크게 향상됨
- 예시: 10분 분량의 Google Cloud Next '25 키노트에서 16개 제품 발표 구간을 정확히 식별

6. 동적 시간(temporal) 추론
- 동영상에서 등장 횟수, 특정 행동 반복 등 복합적인 시간 추론 문제도
- 자동 해결
- 예시: 프로젝트 아스트라 영상에서 주요 인물이 스마트폰을 사용하는 17회 등장 순간을 정확하게 카운팅
7. 사용 환경 및 확장성
- 제미나이 2.5 Flash/Pro 기능은 Google AI Studio, Gemini API, Vertex AI 등에서 바로 사용 가능
- API로 유튜브 영상을 포함한 방대한 동영상 데이터에 접근, 애플리케이션 개발 지원
- 신설된 '낮은 화질' 매개 변수를 활용하면 저비용으로 최대 6시간(2백만 토큰 분량) 동영상 분석 가능(예: VideoMME 기준 84.7% vs 85.2% 정확도)
8. 향후 기대
- 커뮤니티 기반의 다양한 혁신적 동영상 활용 사례 등장을 기대하며, 다양한 개발 및 학습 현장에 응용될 전망
로그인하고 자유롭게 의견을 남겨주세요.