AI
[릴리즈노트] 구글 Gemini 2.5 Flash 소개: 추론 강화, 속도·비용 우선시
6분
1일 전1.5K
※ 본문은 구글의 <Start building with Gemini 2.5 Flash>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.
4줄 요약
- Gemini 2.5 Flash는 Google AI Studio와 Vertex AI를 통해 Gemini API로 미리보기로 제공되며, 2.0 Flash 기반 추론 능력을 대폭 강화하면서도 속도와 비용을 최적화한 모델이에요.
- 완전 하이브리드 추론 모델로 ‘생각하기’ 기능을 켜고 끌 수 있고, 0~24,576토큰 사이의 추론 예산 설정으로 품질·비용·지연 시간 간 최적의 균형을 찾을 수 있어요.
- 예산을 높이면 복잡한 작업 성능이 향상되고, 예산을 0으로 설정하면 2.0 수준의 비용·지연 시간으로도 약간의 성능 개선을 얻을 수 있어요.
- 개발자 문서와 Gemini Cookbook에서 API 참조·가이드를 확인하거나 코드 예제로 실험해 볼 수 있으며, 정식 출시 전까지 지속적인 기능 개선이 예정되어 있어요.

- Google은 Gemini 2.5 Flash의 미리보기 버전을 Google AI Studio와 Vertex AI를 통해 공개함.
- 이 모델은 기존 2.0 Flash 기반으로, 추론 능력을 대폭 강화하면서도 속도와 비용을 최적화한 것이 특징.
- 완전 하이브리드 추론 모델로, 개발자가 ‘생각하기(thinking)’ 기능을 선택적으로 켜고 끌 수 있음.
- Thinking budget(추론 예산) 설정을 통해 품질, 비용, 지연 시간 간 최적의 균형을 조절할 수 있음.
- 생각하기를 꺼도 기존 2.0 Flash 수준의 빠른 속도를 유지하면서 성능이 소폭 개선됨.
완전 추론형 모델: 생각 켜기 vs. 끄기
- Gemini 2.5 모델은 ‘생각하는 모델’로, 응답을 생성하기 전에 프롬프트를 논리적으로 분석하고 사고하는 과정을 거침.
- 즉각적인 응답 대신, 입력을 더 깊이 이해하고 출력을 계획하기 위해 ‘생각하기’ 과정을 수행.
- 그 결과 이는 수학 문제 해결이나 연구 분석처럼 여러 단계의 추론이 필요한 복잡한 작업에서 더 정확하고 포괄적인 답변을 생성.
- Gemini 2.5 Flash는 LMArena의 Hard Prompts에서 2.5 Pro 다음으로 높은 성능을 기록.

비용 대비 성능 최적 모델
- 경쟁 모델 대비 저렴한 비용, 우수한 성능

- 2.5 Flash는 Google의 파레토 프론티어(pareto frontier)에 속하는 모델로, 가장 비용 효율적인 추론 모델.
- 추론 예산 설정을 통해 토큰 소모량을 세밀하게 제어할 수 있어, 사용 사례별로 품질·비용·지연 시간 간의 최적점을 찾기 쉬움.
추론 예산(thinking budget) 설정
- 예산은 0부터 최대 24,576토큰까지 설정 가능
- 예산을 높일수록 모델이 더 오래 ‘생각’해 복잡한 문제에 강해짐
- 프롬프트가 간단하면 예산 전체를 사용하지 않음
- 예산을 0으로 설정하면 2.0 Flash와 동일한 비용·지연 시간을 유지하면서도 약간의 성능 향상을 기대할 수 있음

모델은 주어진 프롬프트의 복잡도를 스스로 판단해 적절한 만큼만 ‘생각’하도록 훈련되었습니다.
추론 단계별 예시 프롬프트
- 낮은 추론 요구
- “Thank you”를 스페인어로 번역하세요.
- 캐나다에는 몇 개의 주(provinces)가 있나요?
- 중간 추론 요구
- 두 개의 주사위를 굴렸을 때 합이 7이 될 확률은?
- 체육관 농구 자유 이용 시간이 월·수·금 9–15시, 화·토 14–20시일 때, 주중 9–18시 근무하면서 5시간 농구를 즐기려면 어떻게 일정을 짜야 할까요?
- 높은 추론 요구
- 길이 L=3 m, 폭 b=0.1 m, 높이 h=0.2 m인 직사각형 단면 캔틸레버 보(cantilever beam)에 균일 분포 하중 w=5 kN/m와 자유단부 하중 P=10 kN이 작용할 때, 최대 굽힘 응력 σₘₐₓ을 계산하세요. (강재 탄성계수 E=200 GPa)
evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]
함수를 작성하세요.
- 각 셀은 숫자(예:
"3"
) 또는"=A1 + B1 * 2"
형태의 수식 사용 - 셀 간 의존성 해결
- 연산자 우선순위 처리 (*/ 우선)
- 순환(cycle) 검출 시
ValueError("Cycle detected at <cell>")
발생 eval()
미사용
Gemini 2.5 Flash의 생각하기 기능 실험하기
- Google AI Studio 또는 Vertex AI의 슬라이더를 이용하거나, API 호출 시
thinking_budget
파라미터를 설정하여, 제어 가능한 추론이 복잡한 문제 해결에 어떤 도움을 주는지 직접 경험해 보길 권장.
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What's the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- 개발자 문서에서 상세한 API 참조와 추론 가이드를 확인하거나, Gemini Cookbook의 코드 예제부터 시작.
- Gemini 2.5 Flash는 곧 더 많은 기능을 추가하며 계속 개선될 예정이며, 정식 프로덕션용으로 일반 제공되기 전까지 더욱 발전시킬 것.
<원문>
Start building with Gemini 2.5 Flash
©위 번역글의 원 저작권은 Google에 있으며, 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.
로그인하고 자유롭게 의견을 남겨주세요.