포용적 서비스: 지난 I/O에서 최초 공개된 Gemini, 현재 1.5 flash, 1.5 Pro와 Advanced로 발전해 100만 개의 컨텍스트 처리, 35개 언어 지원 (200만 개의 컨텍스트 처리 확장 예정)
사용자를 위한 지능형 시스템 구축:쇼핑 후 반품 처리, 이사 준비 등 일상생활의 번거로움을 덜어주는 자동화 시스템 연구 중
추억을 간직하고 소통하는 새로운 방식:‘Ask Photo’를 활용해 쉽게 사진 검색 및 추억 회상
업무 효율성을 극대화하는 구글 워크스페이스: 구글 워크스페이스 내 Gemini 탑재해 이메일 검색 및 요약 작업 등 처리

혁신적인 AI 기술 발표로 업계를 뜨겁게 달군 OpenAI의 ChatGPT-4o 출시 후, 구글은 연례 개발자 컨퍼런스 Google I/O 2024를 다음날인 5월 14일(현지 시각) 개최했습니다. 언론, 인플루언서, 일반 사용자들의 ChatGPT-4o의 획기적인 기술에 대한 관심이 집중된 가운데, 구글은 어떤 차별화된 AI 기술과 고객 경험을 선보일지 그 어느 때보다 기대감이 높았습니다.

이 글에서는 Google I/O 2024에서 발표된 주요 Gemini AI 업데이트 내용과 활용 시나리오를 중점적으로 살펴보고, 마지막으로는 간단히 ChatGPT-4o와의 차이를 분석해 각 서비스의 방향성을 알아보겠습니다.

2024 Google I/O 기조연설 중인 구글 CEO 순다 피차이 <출처: 구글 I/O>

Q. Google I/O가 무엇인가요?

Google I/O는 구글이 매년 개최하는 개발자 대상 컨퍼런스입니다. Input/Output의 약자로, ‘혁신’을 공유한다는 의미를 담고 있으며, 안드로이드, 크롬, 구글 어시스턴트 등 다양한 구글 플랫폼과 기술에 대한 최신 정보와 개발 방법을 소개합니다. 또한, 인공지능, 머신러닝, 클라우드 컴퓨팅 등 첨단 기술 트렌드와 관련된 세션도 진행됩니다. 이 외에도 최신 제품 및 플랫폼 발표, 개발자 세션, 코드랩 및 워크샵 ,네트워킹 기회를 경험할 수 있습니다. 2024 Google I/O에서 제공되는 콘텐츠는 5/16-18일 온라인에서 확인 가능합니다.

Gemini, AI 에이전트로의 진화

지난 Google I/O에서 인공지능 프론티어 모델* Gemini 계획 최초 공개 후, 현재 Gemini 1.5 Pro와 Gemini Advanced로 발전시켰습니다. Gemini 1.5 Pro는 100만 개의 컨텍스트를 처리할 수 있어, 수백 페이지의 텍스트나 몇 시간 분량의 오디오 등 방대한 정보를 활용할 수 있습니다. 해당 기능은 5월 14일(현지시간)부터 Gemini Advanced에서 35개 언어로 사용 가능합니다. 이뿐만 아니라 AI Agent는 추론, 계획, 기억력 등이 고도화된 지능형 시스템이 탑재되어, 사용자를 대신해 다양한 작업 처리를 도와줄 수 있습니다.

*프론티어 모델은 인공지능 분야에서 새로운 경지를 개척하는 첨단 모델을 의미합니다. 텍스트, 이미지, 동영상, 코드 등을 추론할 수 있는 멀티모달 AI로, 다양한 인풋을 이해하고 연결할 수 있습니다.

사용자를 위한 지능형 시스템 구축

구글은 사람들이 쇼핑한 물건을 반품하거나, 새로운 도시로 이사한 후 필요한 정보를 업데이트하는 등의 번거로운 일상적인 작업을 자동으로 처리하는 방법을 연구하고 있습니다. 특히, 사용자의 상황을 예측하고 필요한 정보를 선제적으로 제공하는 스마트한 경험을 제공하는 데 초점을 맞추고 있는데요.

이러한 시스템은 AI가 모든 작업을 자동으로 수행하는 것이 아니라 사용자가 감독하며 필요할 때마다 정보를 요청하여 상황을 항상 제어할 수 있도록 합니다.

시나리오 1: 신발 반품 자동화

<가정> 온라인 쇼핑에서 신발을 구매했으나 신발 사이즈가 맞지 않아 반품해야 합니다. Gemini가 이때 사용자를 어떻게 도와줄 수 있을지 살펴보겠습니다. (가상의 시나리오입니다.)

영수증 검색	Gemini가 사용자의 이메일 계정에 접근해 받은 편지함을 검색합니다. 신발 구매와 관련된 영수증 이메일을 찾아냅니다.
주문 번호 찾기	영수증 이메일에서 주문 번호를 추출합니다. 필요한 반품 정보(주문 날짜, 구매 금액 등)를 확인합니다.
반품 양식 작성

시나리오 2: 새로운 지역으로 이사

<가정> 사용자가 시카고로 막 이사를 했습니다. 새로운 도시에 정착할 때 필요한 다양한 작업을 Gemini와 Chrome이 어떻게 도와줄 수 있을지 살펴보겠습니다.

도시 탐색	Gemini는 사용자의 신규 주소를 바탕으로 가까운 세탁소, 반려견 산책 서비스, 식료품점 등을 검색합니다. 각 서비스의 위치, 영업시간, 리뷰 등을 종합하여 사용자에게 추천 리스트를 제공합니다.
서비스 예약	Gemini가 추천한 세탁소와 반려견 산책 서비스에 대해 예약을 진행합니다. 세탁소의 첫 방문 예약과 반려견 산책 일정을 자동으로 잡습니다.
주소 업데이트

Gemini를 활용해 거주 지역 인근 장소 추천해 주는 과정 <출처: 구글 I/O>

이러한 시나리오를 통해 구글의 AI 에이전트 Gemini는 사용자의 일상생활에서 반복적이고 복잡한 작업을 대신 처리하여, 시간과 노력을 절약해 줄 수 있는 환경을 제공합니다. 구글은 이러한 경험을 제공하면서 프라이버시를 철저히 지키고, 무엇보다 안정적인 서비스를 제공하기 위해 노력하고 있다고 설명합니다.

추억을 간직하고 소통하는 새로운 방식, 구글 포토

구글 포토는 사용자가 소중한 추억을 정리하고 검색할 수 있게 해주는 서비스로, 매일 60억 개 이상의 사진과 동영상이 업로드됩니다. 새로운 ‘구글 포토에 물어보기(Ask Photos)’ 기능은 Gemini AI를 활용하여 사진 검색을 더 쉽게 만들어줍니다.

예를 들어, 주차장에서 차량 번호가 기억나지 않을 때, 단순히 구글 포토에 물어보면 자주 등장하는 차량을 인식하여 번호판을 알려줍니다. 또한, 딸의 어린 시절을 회상하며 "루시는 언제 수영을 배웠지?" 같은 질문을 하면, Gemini는 관련 사진들을 찾아내는 것뿐만 아니라, 그간 딸이 수영을 배웠던 과정을 시간으로 추가로 설명해 줍니다. 이 기능은 올여름에 출시될 예정이며, 앞으로 더 많은 기능이 추가될 것이라고 합니다.

Google Photo, ‘Ask Photo’ 기능 <출처: 구글 I/O>

업무 효율성을 극대화하는 구글 워크스페이스

구글 워크스페이스에 Gemini 1.5 pro가 탑재되어 멀티모달리티와 긴 컨텍스트 처리 기능이 제공됩니다. 이로 인해 이메일 검색과 요약이 더욱 강력해집니다. 예를 들어, 자녀 학교에서 받은 모든 최근 이메일을 요약해달라고 Gemini에게 요청하면, 관련 이메일과 첨부 파일을 분석하여 핵심 사항과 해야 할 일을 요약해 줍니다.

학부모 회의 녹화본도 주요 요점을 요청할 수 있으며, 자원봉사 답장도 대신 작성할 수 있습니다. Gemini 1.5 pro는 현재 구글 워크스페이스 랩에서 사용할 수 있는데요. 이러한 환경은 사용자의 시간을 절약하고, 업무 효율성을 높여주는 똑똑한 비서 역할을 하는 셈입니다.

구글은 Gemini를 활용한 구글 검색의 변화와 멀티모달 모델의 발전 또한 강조했습니다. 구글 검색에서는 생성형 AI 검색(SGE)을 도입하여 새로운 검색 방식(검색 포함)을 지원하고 있으며, 사용자들은 이를 통해 더 복잡한 질문이나 사진 검색을 더욱 편리하게 이용할 수 있습니다. 또한 Gemini를 활용한 개인화된 대화형 오디오 생성과 같은 멀티모달 기능을 통해 사용자는 텍스트 이외의 다양한 작업을 수행할 수 있게 되었습니다. 이러한 기술의 발전을 통해 구글은 더욱 강력한 검색 환경을 조성하고 새로운 기능을 지속적으로 추가할 예정입니다.

이번 Google I/O에서 구글의 AI Gemini는 크게 세 가지 특장점이 확인되었는데요. 첫째, 고객의 상황을 예측해 선제적으로 알려주는 경험을 제공합니다. 구글은 사용자의 상황을 고려하여 필요한 정보를 제공하고, 이를 통해 고객의 편의성을 증대시키고 있습니다.

둘째, 보다 편리한 검색 기능을 제공합니다. 사진 속 내용 기반 검색 및 개인 맞춤형 요약 기능을 통해 소중한 추억을 효과적으로 관리할 수 있으며, 검색 결과에서 더 많은 의미를 전달하여 사용자의 경험을 높입니다.

마지막으로 구글은 AI와 기존의 서비스들과의 연계를 통해 고객 편의성을 더욱 증대시킵니다. 시간 절약 및 업무 효율성을 높이는 기능들을 제공하며, 방대한 양의 정보를 요약하거나 처리하는 등의 역할을 담당합니다.

Google I/O가 OpenAI에서 배워야 할 점

다만 이번 구글 I/O에서는 다양한 혁신 기술들이 소개되었음에도 불구하고 몰입과 공감이 다소 부족하게 느껴져 아쉬움이 남았습니다. 특히나 저는 ChatGPT-4o 업데이트 세션을 보고 난 후라서, 상대적으로 더 그렇게 느꼈는데요. 앞선 ChatGPT-4o 세션에서는 단순히 도입된 신규 기술 설명에 그치지 않고, 사용자와 AI 간의 자연스러운 대화 경험을 중점적으로 다루었습니다.

OpenAI의 ChatGPT-4o 실시간 시연 모습 <출처: OpenAI>

라이브 시연을 통해 AI가 감정을 읽고 표현하며, 사용자가 대화 중간에 끼어들어도 스스럼 없이 이어서 답변해 주었고, 다채로운 시각 정보를 해석하여 보다 자연스러운 소통을 가능케 하는 등 ChatGPT-4o의 기능을 몰입도 있게 보여주었습니다.

이러한 환경은 ChatGPT-4o가 타 AI 서비스들과 달리 사용자와의 상호작용이 대폭 향상되어, 마치 사람과 대화하듯 감정이 섞인 경험을 제공할 수 있다는 점이 체감되었습니다. 이러한 체험을 통해 청중이 세션에 더욱 몰입하고, AI가 일상에서 얼마나 자연스럽고 유용하게 도움을 줄 수 있는지 체감하는 데도 효과적이었고요.

반면, 구글은 분명히 기술적으로는 타사보다 우수한 부분이 많았지만, 고객 입장에서는 이 훌륭한 서비스들을 ‘개발자 관점에서 기획하고 브랜딩한 것이 아닌가?’라는 생각이 들었습니다. 예를 들어, 각 서비스마다 서로 다른 이름을 붙였는데, 텍스트로 동영상을 생성하는 ‘비오’, 텍스트로 사진을 생성하는 ‘이마젠’, AI로 음악을 만드는 ‘리리아’, AI 사진 검색 기능 ‘에스포트’ 등 사용자가 기억해야 할 내용이 많다는 점 또한 다소 아쉽게 다가왔습니다.

마무리

만약 Google I/O에서 현재 개발 중인 우수한 기능을 쉽게 접근할 수 있도록, 새로운 브랜딩과 포지셔닝을 했다면 현재의 기술력이 대중에게 더욱 잘 체감됐을 것으로 보입니다. 특히 인공지능이 인간 이상의 능력을 갖추어가는 시점에 AI가 사용자에게 더욱 사람다운 행동을 하고, 이질감 없이 실질적인 이점을 제공하는 것이 중요한 관점으로 여겨지고 있고요.

앞으로 발전하는 Gemini와 Google AI 기술들이 우리의 삶에 어떤 혁신을 가져올지 더욱 기대되는 부분입니다. 상상해 보면, 내년 세션에서는 AI가 직접 I/O를 진행하는 등 진정한 약속의 8회*가 될지도 모르겠네요. (이번 ‘약속의 8회’는 OpenAI에게 전달하는 이들이 많을 것 같습니다.)

*약속의 8회: 요즘 다시 뜨고 있는 밈 용어. 주로 야구, 드라마 관련 콘텐츠에서 가장 중요한 순간을 의미하는 용어. 특히 야구에서는 야구 경기 중 유독 8회에서 극적인 상황이 펼쳐지며 분위기 반전이 일어나는 것에서 유래됨

<참조>