AI
[릴리즈노트]구글, 실시간 영상 처리 가능한 라이브API 공개
3분
5시간 전1.3K
※ 본문은 구글의 <Achieve real-time interaction: Build with the Live API>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.
[요약]
라이브 API는 실시간 멀티미디어 처리와 쌍방향 경험 구현에 필수적인 기능들을 제공하며, 다양한 실제 서비스에서 이미 핵심 기술로 활용되고 있음. 2024년 4월 기준, 세션 관리, 상호작용 제어, 출력 기능이 대폭 개선되어 실전 서비스 개발 및 확장에 적합한 수준으로 발전함.

1. 라이브 API의 주요 특징 및 용도
- 라이브 API는 실시간 오디오, 동영상, 문자 처리가 가능한 개발 도구 제공
- 지연 시간 최소화로, 고객 지원, 교육 플랫폼, 실시간 모니터링 등 쌍방향 서비스 개발에 최적화
- 제미나이(Gemini) 모델 기반으로,Google AI Studio와Vertex AI에서 제공
2. 라이브 API의 새로운 기능 및 개선 사항
세션 관리 및 신뢰성 강화
- 문맥(컨텍스트) 압축 기능으로 더 긴 세션 지원, 자동 문맥 길이 조정
- 일시적인 네트워크 장애 발생 시 세션 지속 가능(최대 24시간 저장 후 재접속 가능)
- 연결 종료 전 사전 알림(GoAway 메시지)을 통해 데이터 손실 방지
- 입력 미디어 해상도, 연속 음성·동영상 입력 방식(사용자 말할 때만 수집 등) 설정 가능
상호작용 제어 기능 강화
- 음성 활동 감지(VAD) 민감도 선택 또는 완전 비활성화 및 수동 제어 가능
- 사용자 입력이 모델 응답을 중단할지 여부 선택 가능
- 세션 내 안내문 등세부 설정자유롭게 변경 가능
풍부해진 출력 및 보고 기능
- 2개의 새 음성 및 30개 신규 언어 추가로 오디오 출력 언어 선택 폭 확대
- 텍스트 점진적 전송(스트리밍) 지원으로 신속한 표시 가능
- 토큰 사용량 통계 제공(입력/출력별, 미디어 유형별 세부 내역 확인 가능)
3. 실제 적용 사례
Daily.co
- Pipecat 오픈소스 소프트웨어 개발도구에 라이브 API 통합, 웹·안드로이드·아이폰 등에서 실시간 음성 기반 게임(Word Wrangler) 구현

LiveKit
-LiveKit Agents에 라이브 API 적용, 실시간 동영상 흐름을 직접 처리할 수 있는 오픈소스 음성 AI 에이전트 프레임워크 구축
"라이브 API가 나오기 전까지는 스트리밍 비디오를 직접 수집할 수 있는 개발자 인터페이스를 제공하는 다른 LLM은 없었습니다."- 러셀 다사(Russell d'Sa), CEO
Bubba.ai
- 미국 트럭 운전자용 다국어 음성 AI 비서(헤이 버바)를 개발, 라이브 API로 운송 관련 통화, 예약, 협상 등이 모두 음성으로 처리 가능
4. 시작 안내
- Google AI Studio및 Vertex AI를 통해 체험 및 개발 가능
- 공식 문서와 예제(쿡북) 제공
로그인하고 자유롭게 의견을 남겨주세요.