요즘IT
위시켓
새로 나온
인기요즘 작가들컬렉션
물어봐
새로 나온
인기
요즘 작가들
컬렉션
물어봐
개발
AI
IT서비스
기획
디자인
비즈니스
프로덕트
커리어
트렌드
스타트업
서비스 전체보기
위시켓요즘IT
고객 문의
02-6925-4867
10:00-18:00주말·공휴일 제외
[email protected]
요즘IT
요즘IT 소개작가 지원
기타 문의
콘텐츠 제안하기광고 상품 보기
요즘IT 슬랙봇크롬 확장 프로그램
이용약관
개인정보 처리방침
청소년보호정책
㈜위시켓
대표이사 : 박우범
서울특별시 강남구 테헤란로 211 3층 ㈜위시켓
사업자등록번호 : 209-81-57303
통신판매업신고 : 제2018-서울강남-02337 호
직업정보제공사업 신고번호 : J1200020180019
제호 : 요즘IT
발행인 : 박우범
편집인 : 노희선
청소년보호책임자 : 박우범
인터넷신문등록번호 : 서울,아54129
등록일 : 2022년 01월 23일
발행일 : 2021년 01월 10일
© 2013 Wishket Corp.
로그인
요즘IT 소개
콘텐츠 제안하기
광고 상품 보기
AI

[릴리즈노트]동영상을 이해하는 제미나이(Gemini) 2.5 Pro/Flash 모델 발표

AI입니다만
4분
2025.05.12.
3.0K

※ 본문은 구글의 <Advancing the frontier of video understanding with Gemini 2.5>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.

 

 

1. 제미나이 2.5 Pro/Flash 모델 출시 및 성능

  • 구글은 제미나이 2.5 Pro 프리뷰(2025년 5월 6일)와 제미나이 2.5 Flash(2025년 4월 17일) 모델을 새롭게 공개함
  • 두 모델 모두 동영상 이해 능력이 크게 향상됨
  • 제미나이 2.5 Pro는 주요 동영상 이해 벤치마크에서 경쟁 모델(GPT 4.1 등)을 능가하는 최고 수준의 성능을 기록함 (테스트 조건 동일, 동일한 문장 및 프레임 수 사용)
  • 일부 전문 모델(YouCook2, QVHighlights 등)을 뛰어넘는 결과도 달성함
  • 비용에 민감한 활용 사례엔 제미나이 2.5 Flash가 경쟁력 있는 대안으로 제시됨

 

Gemini 2.5와 이전 모델의 동영상 이해 벤치마크에 대한 평가. 성능은 객관식 VideoQA의 문자열 일치 정확도, EgoTempo의 LLM 기반 정확도, QVHighlights의 [email protected], YouCook2의 CIDEr 점수를 기준으로 측정되었다. *동영상은 초당 1프레임으로 처리되었으며, 대부분 최대 256프레임까지 선형적으로 하위 샘플링되었고, 1H-VideoQA의 경우에는 7200프레임이 사용되었다.
 

 

2. 동영상-코드 융합 멀티모달 처리

  • 제미나이 2.5는 처음으로 오디오·비디오·코드·기타 다양한 데이터 형식을 자연스럽게 동시에 다룸
  • 복수의 입력 형식을 연계해 복잡한 동영상 이해 관련 문제 해결 가능

 

3. 동영상에서 상호작용형 애플리케이션 자동 생성

  • 'Video To Learning App'(AI Studio 제공 예시) 활용 시, 유튜브 주소와 분석 방향(문장 형태의 목적 설명)을 입력하면 제미나이 2.5 Pro가 동영상 내용 분석 및 교육용 앱 설계안을 생성함
  • 설계안은 다시 모델에 입력돼 바로 기능 코드를 자동 작성함(예: 시뮬레이터 앱 자동 생성)
  • 제미나이 2.5 Flash 역시 유사 활용 가능

 

Google AI Studio에서 동영상을 인터랙티브 애플리케이션으로 변환하기

 

4. 동영상을 애니메이션으로 자동 변환

  • 하나의 문장만으로 동영상의 키포인트·랜드마크 등을 p5.js 기반 애니메이션으로 변환 가능
  • 예시: 프로젝트 아스트라 영상 내 장소 변화를 시간 순서대로 애니메이션화

 

Gemini 2.5 Pro를 활용한 동영상의 p5.js 애니메이션 변환 (구글 AI 스튜디오에서 전체 결과물 보기)

 

5. 동영상 내 특정 순간 추출·설명

  • 제미나이 2.5 Pro는 오디오와 비디오 정보를 모두 활용해 동영상 내 특정 장면 탐색/설명 능력이 크게 향상됨
  • 예시: 10분 분량의 Google Cloud Next '25 키노트에서 16개 제품 발표 구간을 정확히 식별

 

제미나이 2.5pro로 특정 순간 추출 (구글 AI 스튜디오에서 전체 결과물 보기)

 

6. 동적 시간(temporal) 추론

  • 동영상에서 등장 횟수, 특정 행동 반복 등 복합적인 시간 추론 문제도
  • 자동 해결
  • 예시: 프로젝트 아스트라 영상에서 주요 인물이 스마트폰을 사용하는 17회 등장 순간을 정확하게 카운팅

 

7. 사용 환경 및 확장성

  • 제미나이 2.5 Flash/Pro 기능은 Google AI Studio, Gemini API, Vertex AI 등에서 바로 사용 가능
  • API로 유튜브 영상을 포함한 방대한 동영상 데이터에 접근, 애플리케이션 개발 지원
  • 신설된 '낮은 화질' 매개 변수를 활용하면 저비용으로 최대 6시간(2백만 토큰 분량) 동영상 분석 가능(예: VideoMME 기준 84.7% vs 85.2% 정확도)

 

8. 향후 기대

  • 커뮤니티 기반의 다양한 혁신적 동영상 활용 사례 등장을 기대하며, 다양한 개발 및 학습 현장에 응용될 전망
     
에디터가 직접 고른 실무 인사이트 매주 목요일에 만나요.
newsletter_profile0명 뉴스레터 구독 중