요즘IT
위시켓
콘텐츠프로덕트 밸리
요즘 작가들컬렉션물어봐
놀이터
콘텐츠
프로덕트 밸리
요즘 작가들
컬렉션
물어봐
놀이터
새로 나온
인기
개발
AI
IT서비스
기획
디자인
비즈니스
프로덕트
커리어
트렌드
스타트업
서비스 전체보기
위시켓요즘IT
고객 문의
02-6925-4867
10:00-18:00주말·공휴일 제외
yozm_help@wishket.com
요즘IT
요즘IT 소개작가 지원
기타 문의
콘텐츠 제안하기광고 상품 보기
요즘IT 슬랙봇크롬 확장 프로그램
이용약관
개인정보 처리방침
청소년보호정책
㈜위시켓
대표이사 : 박우범
서울특별시 강남구 테헤란로 211 3층 ㈜위시켓
사업자등록번호 : 209-81-57303
통신판매업신고 : 제2018-서울강남-02337 호
직업정보제공사업 신고번호 : J1200020180019
제호 : 요즘IT
발행인 : 박우범
편집인 : 노희선
청소년보호책임자 : 박우범
인터넷신문등록번호 : 서울,아54129
등록일 : 2022년 01월 23일
발행일 : 2021년 01월 10일
© 2013 Wishket Corp.
로그인
요즘IT 소개
콘텐츠 제안하기
광고 상품 보기
AI

[릴리즈노트] 구글 Gemini 2.5 Flash 소개: 추론 강화, 속도·비용 우선시

AI입니다만
4분
2025.04.18.
3.9K
에디터가 직접 고른 실무 인사이트 매주 목요일에 만나요.
newsletter_profile0명 뉴스레터 구독 중

※ 본문은 구글의 <Start building with Gemini 2.5 Flash>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.

 

4줄 요약

  • Gemini 2.5 Flash는 Google AI Studio와 Vertex AI를 통해 Gemini API로 미리보기로 제공되며, 2.0 Flash 기반 추론 능력을 대폭 강화하면서도 속도와 비용을 최적화한 모델이에요.
  • 완전 하이브리드 추론 모델로 ‘생각하기’ 기능을 켜고 끌 수 있고, 0~24,576토큰 사이의 추론 예산 설정으로 품질·비용·지연 시간 간 최적의 균형을 찾을 수 있어요.
  • 예산을 높이면 복잡한 작업 성능이 향상되고, 예산을 0으로 설정하면 2.0 수준의 비용·지연 시간으로도 약간의 성능 개선을 얻을 수 있어요.
  • 개발자 문서와 Gemini Cookbook에서 API 참조·가이드를 확인하거나 코드 예제로 실험해 볼 수 있으며, 정식 출시 전까지 지속적인 기능 개선이 예정되어 있어요.
 

 

  • Google은 Gemini 2.5 Flash의 미리보기 버전을 Google AI Studio와 Vertex AI를 통해 공개함.
  • 이 모델은 기존 2.0 Flash 기반으로, 추론 능력을 대폭 강화하면서도 속도와 비용을 최적화한 것이 특징.
  • 완전 하이브리드 추론 모델로, 개발자가 ‘생각하기(thinking)’ 기능을 선택적으로 켜고 끌 수 있음.
  • Thinking budget(추론 예산) 설정을 통해 품질, 비용, 지연 시간 간 최적의 균형을 조절할 수 있음.
  • 생각하기를 꺼도 기존 2.0 Flash 수준의 빠른 속도를 유지하면서 성능이 소폭 개선됨.

 

 

완전 추론형 모델: 생각 켜기 vs. 끄기

  • Gemini 2.5 모델은 ‘생각하는 모델’로, 응답을 생성하기 전에 프롬프트를 논리적으로 분석하고 사고하는 과정을 거침.
  • 즉각적인 응답 대신, 입력을 더 깊이 이해하고 출력을 계획하기 위해 ‘생각하기’ 과정을 수행.
  • 그 결과 이는 수학 문제 해결이나 연구 분석처럼 여러 단계의 추론이 필요한 복잡한 작업에서 더 정확하고 포괄적인 답변을 생성.
  • Gemini 2.5 Flash는 LMArena의 Hard Prompts에서 2.5 Pro 다음으로 높은 성능을 기록.

 

 

 

비용 대비 성능 최적 모델

  • 경쟁 모델 대비 저렴한 비용, 우수한 성능
     

 

  • 2.5 Flash는 Google의 파레토 프론티어(pareto frontier)에 속하는 모델로, 가장 비용 효율적인 추론 모델.
  • 추론 예산 설정을 통해 토큰 소모량을 세밀하게 제어할 수 있어, 사용 사례별로 품질·비용·지연 시간 간의 최적점을 찾기 쉬움.

 

 

추론 예산(thinking budget) 설정

  • 예산은 0부터 최대 24,576토큰까지 설정 가능
  • 예산을 높일수록 모델이 더 오래 ‘생각’해 복잡한 문제에 강해짐
  • 프롬프트가 간단하면 예산 전체를 사용하지 않음
  • 예산을 0으로 설정하면 2.0 Flash와 동일한 비용·지연 시간을 유지하면서도 약간의 성능 향상을 기대할 수 있음
     

모델은 주어진 프롬프트의 복잡도를 스스로 판단해 적절한 만큼만 ‘생각’하도록 훈련되었습니다.

 

추론 단계별 예시 프롬프트

  • 낮은 추론 요구
  1. “Thank you”를 스페인어로 번역하세요.
  2. 캐나다에는 몇 개의 주(provinces)가 있나요?
  • 중간 추론 요구
  1. 두 개의 주사위를 굴렸을 때 합이 7이 될 확률은?
  2. 체육관 농구 자유 이용 시간이 월·수·금 9–15시, 화·토 14–20시일 때, 주중 9–18시 근무하면서 5시간 농구를 즐기려면 어떻게 일정을 짜야 할까요?
  • 높은 추론 요구
  1. 길이 L=3 m, 폭 b=0.1 m, 높이 h=0.2 m인 직사각형 단면 캔틸레버 보(cantilever beam)에 균일 분포 하중 w=5 kN/m와 자유단부 하중 P=10 kN이 작용할 때, 최대 굽힘 응력 σₘₐₓ을 계산하세요. (강재 탄성계수 E=200 GPa)
  2. evaluate_cells(cells: Dict[str, str]) -> Dict[str, float] 함수를 작성하세요.
  • 각 셀은 숫자(예: "3") 또는 "=A1 + B1 * 2" 형태의 수식 사용
  • 셀 간 의존성 해결
  • 연산자 우선순위 처리 (*/ 우선)
  • 순환(cycle) 검출 시 ValueError("Cycle detected at <cell>") 발생
  • eval() 미사용

 

 

Gemini 2.5 Flash의 생각하기 기능 실험하기

  • Google AI Studio 또는 Vertex AI의 슬라이더를 이용하거나, API 호출 시 thinking_budget 파라미터를 설정하여, 제어 가능한 추론이 복잡한 문제 해결에 어떤 도움을 주는지 직접 경험해 보길 권장.

 

from google import genaiclient = genai.Client(api_key="GEMINI_API_KEY")response = client.models.generate_content(  model="gemini-2.5-flash-preview-04-17",  contents="You roll two dice. What's the probability they add up to 7?",  config=genai.types.GenerateContentConfig(    thinking_config=genai.types.ThinkingConfig(      thinking_budget=1024    )  ))print(response.text)

 

  • 개발자 문서에서 상세한 API 참조와 추론 가이드를 확인하거나, Gemini Cookbook의 코드 예제부터 시작.
  • Gemini 2.5 Flash는 곧 더 많은 기능을 추가하며 계속 개선될 예정이며, 정식 프로덕션용으로 일반 제공되기 전까지 더욱 발전시킬 것.
 

<원문>

Start building with Gemini 2.5 Flash

 

©위 번역글의 원 저작권은 Google에 있으며, 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.