제미나이 2.5 Pro는 주요 동영상 이해 벤치마크에서 경쟁 모델(GPT 4.1 등)을 능가하는 최고 수준의 성능을 기록함 (테스트 조건 동일, 동일한 문장 및 프레임 수 사용)
일부 전문 모델(YouCook2, QVHighlights 등)을 뛰어넘는 결과도 달성함
비용에 민감한 활용 사례엔 제미나이 2.5 Flash가 경쟁력 있는 대안으로 제시됨
Gemini 2.5와 이전 모델의 동영상 이해 벤치마크에 대한 평가. 성능은 객관식 VideoQA의 문자열 일치 정확도, EgoTempo의 LLM 기반 정확도, QVHighlights의 [email protected], YouCook2의 CIDEr 점수를 기준으로 측정되었다. *동영상은 초당 1프레임으로 처리되었으며, 대부분 최대 256프레임까지 선형적으로 하위 샘플링되었고, 1H-VideoQA의 경우에는 7200프레임이 사용되었다.
2. 동영상-코드 융합 멀티모달 처리
제미나이 2.5는 처음으로 오디오·비디오·코드·기타 다양한 데이터 형식을 자연스럽게 동시에 다룸
복수의 입력 형식을 연계해 복잡한 동영상 이해 관련 문제 해결 가능
3. 동영상에서 상호작용형 애플리케이션 자동 생성
'Video To Learning App'(AI Studio 제공 예시) 활용 시, 유튜브 주소와 분석 방향(문장 형태의 목적 설명)을 입력하면 제미나이 2.5 Pro가 동영상 내용 분석 및 교육용 앱 설계안을 생성함
설계안은 다시 모델에 입력돼 바로 기능 코드를 자동 작성함(예: 시뮬레이터 앱 자동 생성)
제미나이 2.5 Flash 역시 유사 활용 가능
Google AI Studio에서 동영상을 인터랙티브 애플리케이션으로 변환하기
4. 동영상을 애니메이션으로 자동 변환
하나의 문장만으로 동영상의 키포인트·랜드마크 등을 p5.js 기반 애니메이션으로 변환 가능