[릴리즈노트]구글, 실시간 영상 처리 가능한 라이브API 공개 | 요즘IT

서비스 전체보기

위시켓 요즘IT AIDP

고객 문의

10:00-18:00주말·공휴일 제외

yozm_help@wishket.com

개인정보 처리방침

청소년보호정책

㈜위시켓

대표이사 : 박우범

서울특별시 강남구 테헤란로 211 3층 ㈜위시켓

사업자등록번호 : 209-81-57303

통신판매업신고 : 제2018-서울강남-02337 호

직업정보제공사업 신고번호 : J1200020180019

제호 : 요즘IT

발행인 : 박우범

편집인 : 노희선

청소년보호책임자 : 박우범

인터넷신문등록번호 : 서울,아54129

등록일 : 2022년 01월 23일

발행일 : 2021년 01월 10일

© 2013 Wishket Corp.

요즘IT 소개

콘텐츠 제안하기

광고 상품 보기

※ 본문은 구글의 <Achieve real-time interaction: Build with the Live API>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.

[요약]
라이브 API는 실시간 멀티미디어 처리와 쌍방향 경험 구현에 필수적인 기능들을 제공하며, 다양한 실제 서비스에서 이미 핵심 기술로 활용되고 있음. 2024년 4월 기준, 세션 관리, 상호작용 제어, 출력 기능이 대폭 개선되어 실전 서비스 개발 및 확장에 적합한 수준으로 발전함.

1. 라이브 API의 주요 특징 및 용도

라이브 API는 실시간 오디오, 동영상, 문자 처리가 가능한 개발 도구 제공
지연 시간 최소화로, 고객 지원, 교육 플랫폼, 실시간 모니터링 등 쌍방향 서비스 개발에 최적화
제미나이(Gemini) 모델 기반으로,Google AI Studio와Vertex AI에서 제공

2. 라이브 API의 새로운 기능 및 개선 사항

세션 관리 및 신뢰성 강화

문맥(컨텍스트) 압축 기능으로 더 긴 세션 지원, 자동 문맥 길이 조정
일시적인 네트워크 장애 발생 시 세션 지속 가능(최대 24시간 저장 후 재접속 가능)
연결 종료 전 사전 알림(GoAway 메시지)을 통해 데이터 손실 방지
입력 미디어 해상도, 연속 음성·동영상 입력 방식(사용자 말할 때만 수집 등) 설정 가능

상호작용 제어 기능 강화

음성 활동 감지(VAD) 민감도 선택 또는 완전 비활성화 및 수동 제어 가능
사용자 입력이 모델 응답을 중단할지 여부 선택 가능
세션 내 안내문 등세부 설정자유롭게 변경 가능

풍부해진 출력 및 보고 기능

2개의 새 음성 및 30개 신규 언어 추가로 오디오 출력 언어 선택 폭 확대
텍스트 점진적 전송(스트리밍) 지원으로 신속한 표시 가능
토큰 사용량 통계 제공(입력/출력별, 미디어 유형별 세부 내역 확인 가능)

3. 실제 적용 사례

Daily.co

- Pipecat 오픈소스 소프트웨어 개발도구에 라이브 API 통합, 웹·안드로이드·아이폰 등에서 실시간 음성 기반 게임(Word Wrangler) 구현

LiveKit

-LiveKit Agents에 라이브 API 적용, 실시간 동영상 흐름을 직접 처리할 수 있는 오픈소스 음성 AI 에이전트 프레임워크 구축

"라이브 API가 나오기 전까지는 스트리밍 비디오를 직접 수집할 수 있는 개발자 인터페이스를 제공하는 다른 LLM은 없었습니다."- 러셀 다사(Russell d'Sa), CEO

Bubba.ai

- 미국 트럭 운전자용 다국어 음성 AI 비서(헤이 버바)를 개발, 라이브 API로 운송 관련 통화, 예약, 협상 등이 모두 음성으로 처리 가능

4. 시작 안내