며칠 전 ‘생성형 AI 시대를 이해하기 위한 필수 용어 사전’이 발행됐는데요. 이 글은 2024년에도 생성형 AI 시대가 지속될 것으로 예상되는 가운데, 아직 생성형 AI가 익숙하지 않은 분들을 위해 쓴 글이었습니다. 그리고 얼마 지나지 않아 구글이 새로운 생성형 AI 서비스 ‘제미나이(Gemini)’를 발표하면서, 예상이 틀리지 않았음을 다시 한번 느꼈습니다.

이번 발표의 핵심은 ‘성능’과 ‘멀티모달’로 요약할 수 있습니다. 성능 면에서는 생성형 AI 서비스 중 가장 뛰어나다고 평가받는 OpenAI의 GPT-4 버전과의 비교를 통해, 제미나이가 성능 면에서 우위에 있다고 자신 있게 발표했는데요. 텍스트, 이미지, 오디오, 영상 등을 다양하게 활용한 멀티모달 기능 소개에 많은 시간을 할애하며, 해당 기술의 중요성을 강조했습니다.

공교롭게도 이번 발표는 OpenAI의 CEO의 샘 올트먼 해임 사태가 벌어진 지 한 달도 채 되지 않은 상황에서 기습적으로 이루어졌는데요. 이는 경쟁사가 흔들리는 상황을 활용하려는 구글의 전략적인 움직임으로 해석될 수 있습니다. 이처럼 생성형 AI 전쟁이 점차 치열해지고 있는 가운데, 오늘은 현재까지 공개된 정보를 바탕으로 제미나이에 대해 살펴보고, 향후 전망을 예상해 보고자 합니다.

3가지 버전의 AI 모델

구글은 이번 발표에서 크기와 성능에 따른 3가지 버전의 제미나이 모델을 공개했는데요. 각각의 특징을 살펴보면 다음과 같습니다.

제미나이 울트라(Gemini Ultra): 가장 크고 뛰어난 모델로, 복잡한 작업에 적합합니다.
제미나이 프로(Gemini Pro): 중간 크기와 성능의 모델로, 다양한 작업에 걸쳐 확장하기 용이합니다.
제미나이 나노(Gemini Nano): 가장 작은 모델로, 온-디바이스(On-Device)에 최적화된 모델입니다.

이 중에서 프로 버전은 현재 구글의 생성형 AI 서비스인 ‘바드(Bard)’에 적용되어 일반 사용자들도 바로 활용 가능한 범용 제품이며, 울트라 버전은 내년 초에 바드에 적용될 예정으로 ChatGPT Plus처럼 유료로 제공될 것으로 보입니다.

나노 모델은 구글의 스마트폰인 ‘픽셀 8 프로’에 탑재되어 통화 내용을 텍스트로 변환하거나, 요약하는 기능으로 활용될 예정입니다. 이보다 앞서 삼성전자는 자체 개발한 생성형 AI 모델 ‘가우스’를 소개하며 갤럭시 S24 시리즈에 탑재할 예정이라고 밝혔는데요. 애플 역시 ‘애플GPT(가칭)’라는 생성형 AI를 자체 개발하고 있다는 소식을 전했습니다. 이러한 소식들을 종합해 봤을 때, 2024년은 온-디바이스 AI 스마트폰의 경쟁이 치열해지는 한 해가 될 것으로 보입니다.

제미나이 성능

위에서 언급된 3가지 모델 중에서 GPT-4보다 우세하다고 평가받은 모델은 바로 울트라 버전입니다. 특히 이 모델은 대규모 다중 작업 언어 이해(Massive Multitask Language Understanding, MMLU) 부분에 있어, AI 최초로 인간(89.8%)을 뛰어넘는 성능(90.0%)을 기록했다고 밝혔는데요. 경쟁사인 OpenAI가 최근 안전한 AI 개발이라는 목표 아래 내분을 겪은 것을 고려할 때, 상징적인 의미가 크다고 볼 수 있습니다.

여기서 말하는 MMLU란, 다양한 언어 태스크에서 모델의 이해력과 추론 능력을 측정하기 위해 사용됩니다. 수학, 물리학, 역사, 법, 의학, 윤리 등 57개의 주제를 조합한 평가로, AI의 지식과 문제 해결 능력을 테스트하게 됩니다. 특히 단순한 텍스트 처리나 패턴 인식을 넘어, 모델이 실제로 어떻게 다양한 정보를 이해하고 처리하는지를 확인하는 데에 중점을 두는 것이 특징입니다.

구글은 이외에도 AI의 성능을 평가하는 32개의 지표 중에서 30개의 항목에서 GPT-4보다 높은 성적을 기록했다고 발표했는데요. 발표한 결과를 정리하면 다음과 같습니다. (자세한 내용은 이곳에서 확인할 수 있습니다.)

멀티모달

이번 발표에서 성능뿐만 아니라 멀티모달 기능도 많은 주목을 받았는데요. 그 이유는 텍스트, 이미지, 영상, 오디오 등 다양한 형태의 입력에도 완벽하게 상호 작용하는 능력을 보여주었기 때문입니다.

지난 11월 7일에 열린 OpenAI 개발자 컨퍼런스(Devday)에서도 멀티모달 기능의 발전에 대해 많이 강조했는데요. 생성형 AI 기술의 선두 주자인 두 기업이 멀티모달 기능 개발에 집중하고 있는 것을 보면, 향후 생성형 AI 경쟁에서 멀티모달 기능이 주요 쟁점이 될 것으로 예상합니다.

다음으로 구글에서 소개한 멀티모달 기능 시연 영상을 살펴보겠습니다.

1) 멀티모달 대화(Multimodal Dialogue)

오리를 그리는 과정을 실시간으로 보여주자, 다양한 정보들을 취합/분석하여 오리라는 사실을 추론해 내는 모습입니다.

2) 시각적 퍼즐(Visual Puzzle)

컵과 물체를 보자마자 물체를 찾는 게임이라는 걸 예상했고, 이후 섞는 동작을 추적하여 물체의 위치를 찾아내는 모습입니다.

3) 연관성 찾기(Making Connections)

서로 다른 물체 간의 연관성을 찾아내는 모습입니다. 특히 큰 연관성이 없어 보이는 시트러스와 피젯토이 간의 연관성 또한 정확하게 찾아내는 것을 확인할 수 있습니다.

4) 이미지 및 텍스트 생성(Image & Text Generations)

두 가지 색상의 실로 만들 수 있는 것을 질문하자 색상 조합을 고려해 제안하고, 구체적인 예시까지 생성하는 모습입니다.

5) 논리 및 공간적 추론(Logic & Spatial Reasoning)

첫 번째 시연에서는 태양, 토성, 지구라고 특정해 주지 않았음에도, 그림의 특징과 배열을 통해 태양계에 대한 내용이라는 것을 추론해 냈습니다. 이후 토성과 지구의 순서가 바뀌었다는 것도 짚어낸 모습입니다. 두 번째 시연에서는 언덕의 각도와 차체의 모양을 분석하여, 어떤 것이 더 빠를지에 대해 추론하는 모습입니다.

6) 문화적 이해(Cultural Understanding)

허리와 팔을 뒤로 젖히는 동작을 보여주며 어떤 영화를 따라 하고 있는지 묻자, 영화 ‘매트릭스’의 총알 피하기 장면이라고 정확하게 추론하는 모습입니다. 이는 단순한 추론뿐만 아니라 대중적인 상식에 관한 제미나이의 이해도를 보여줍니다.

제미나이 조작 의혹

위 영상을 통해 확인한 것처럼 제미나이는 마치 사람과 대화하듯, 다양한 입력 형태에도 완벽하게 상호작용하는 모습을 보여주었습니다. 그러나 이 영상이 조작되었다는 의혹이 곳곳에서 제기되고 있습니다.

(참고 기사)

Techcrunch: Google’s best Gemini demo was faked
CNBC: Google faces controversy over edited Gemini AI demo video

이러한 의혹에 대해 구글은 해당 데모 영상의 간결성을 위해 지연 시간을 줄이고, 출력 시간을 단축한 편집본이라는 점을 영상 소개 글에 명시했다고 해명했습니다. 즉, 이미 명시한 내용이기 때문에 조작이나 속임수는 아니라는 것인데요.

‘더보기’ 버튼을 눌러야 나오는 영상 편집에 관한 내용 <출처: 구글 유튜브, 작가 편집>

하지만 영상 자체에는 편집본이라는 사실이 명시되어 있지 않고, 구글이 말하는 소개 글 역시 ‘자세히(더보기)’ 버튼을 눌러야 볼 수 있다는 점에서 꼼수를 썼다는 비판을 피하기 어려울 듯합니다. 이는 OpenAI가 Devday에서 멀티 모달 기능을 실시간으로 시연했던 것과는 대조적인 상황이죠.

이외에도 영상을 보여주고 상황을 인식한 것이 아니라 스틸샷을 보여주고 상황을 추론하게 했다거나, 음성으로 질문한 것처럼 연출되었으나 실제로는 텍스트로 질문했다는 등의 정황이 밝혀지면서, 해당 데모 영상의 신뢰도가 크게 떨어진 상황입니다. (자세한 내용은 이곳에서 확인할 수 있습니다.)

이에 따라 구글 내부에서도 해당 영상이 과장되었다는 지적과 함께 수정이 필요하다는 의견이 제기되고 있는데요. 이러한 상황이 왠지 낯설지 않은 이유는 구글이 지난 2월, ChatGPT의 폭발적인 인기에 대응하기 위해 서둘러 바드를 공개한 적이 있기 때문입니다. 공개 당시 많은 관심을 받았지만, 정작 시연하는 과정에서 부정확하고 엉뚱한 답변을 내놓으면서 오히려 역효과를 낸 적이 있죠. 그래서 이번에도 그 모습을 답습하는 것은 아닌지 우려되기도 합니다.

삼각구도 형성

한 가지 더 재밌는 사실은 구글이 제미나이를 발표한 시점에, AI 시장 주요 플레이어들의 흥미로운 발표가 이어졌다는 점인데요. 각 사의 발표 내용을 살펴보겠습니다.

1) 마이크로소프트 “코파일럿 GPT-4 Turbo 탑재”

마이크로소프트는 제미나이가 발표되기 하루 전, 코파일럿 업그레이드 소식을 발표했습니다. 주요 업데이트 내용은 다음과 같습니다.

GPT-4 터보 적용
DALL-E3 적용
Bing 이미지 검색 및 웹 검색 적용
코드 해석기 적용

말 그대로 ChatGPT의 유료 버전을 그대로 코파일럿에 심었다고 볼 수 있습니다. 그러나 해당 발표에는 탑재될 ‘예정’이라는 표현만 사용됐을 뿐, 정확한 시점에 대해 언급하지 않았는데요. 이는 마이크로소프트 측에서 구글의 제미나이 발표 소식을 미리 입수한 뒤 시선을 분산시키기 위한 전략적인 발표는 아니었을지로 해석해 볼 수 있습니다.

2) IBM & META “AI 동맹(Alliance) 출범”

마이크로소프트에 이어 구글도 제미나이를 발표하면서 폐쇄적인 AI 기술 개발 노선을 택하자, IBM과 META는 이에 대응하고자 ‘AI 동맹’을 출범시켰습니다. 이들의 목표는 다음과 같습니다.

AI의 윤리적 개발 및 배포
AI 시스템의 공정성 확보
설명 가능한 AI 개발
투명성 및 신뢰성 향상

IBM이 공개한 성명에 따르면 AI 동맹에는 AMD, 소니, 오라클, 델, 인텔 등의 거대 기업이 참여했으며, 스태빌리티AI 등의 떠오르는 스타트업도 포함되어 있습니다. 또한 보스턴, 하버드, 예일 등 주요 대학교를 비롯해 항공우주국(NASA), 국립과학재단(NSF) 등의 공공기관까지 동맹에 포함시키며, 폐쇄적인 AI 기술 개발을 택한 두 거대 공룡(구글, 마이크로소프트) 기업에 맞서기 위한 오픈소스 연합의 구색이 갖춰졌습니다.

현재까지는 마이크로소프트+OpenAI 연합과 구글 간의 양강 구도가 형성되어 있지만, META가 오픈소스로 공개한 대형 언어 모델인 ‘라마(LLaMA)’의 성능이 계속 향상되고 있으며, 오픈소스 연합의 지원이 강화될 경우, 향후 두 기업을 견제할 수 있는 세력으로 성장할 것으로 기대됩니다.

로봇 AI의 발전 가능성

이처럼 생성형 AI 시장의 쟁점이 멀티모달 기술로 점차 옮겨감에 따라, 자연스럽게 ‘로봇 AI’ 기술도 주목받고 있습니다. 전통적인 로봇은 프로그램된 동작 이외의 특수한 상황에 대처하는 능력이 제한적이었기에 사용 범위가 상대적으로 좁았는데요. 그러나 생성형 AI와 결합한다면 로봇들의 문제 해결 능력이 크게 향상되어, 복잡한 문제에 직면했을 때 스스로 해결할 수 있게 됩니다. 이에 따라 활용 범위가 크게 확대될 것으로 예상되고요.

이번에 제미나이를 개발한 딥마인드(구글 연구소) 역시 대형 비전 언어 모델(VLM) 기술을 로봇에 적용하고자, 여러 방면으로 시도하고 있습니다. 이러한 기술이 적용된 모델 ‘RT-2’는 “색이 다른 동물을 짚어주세요”, “테일러 스위프트에게 콜라 캔을 옮겨주세요” 등 사전에 정의되지 않은 동작도 스스로 판단하여 처리하는 능력을 보여주기도 했습니다. 로봇 AI 기술 발전으로 인간과 로봇이 함께 협업하는 사례도 더 많아질 것으로 예상합니다.

마치며

지금까지 구글의 제미나이와 생성형 AI 전망에 대해 살펴보았습니다. 제미나이의 성능 지표와 데모 영상을 보면 확실히 괄목할 만한 발전이 있었음은 분명해 보입니다. 그러나 아직 실체가 명확하게 드러나지 않았다는 점에서 정확한 평가는 잠시 뒤로 미뤄야 할 것 같습니다.

또한 지표상으로 GPT-4보다 많은 점에서 상대적 우위에 있는 것은 맞지만, 압도적인 성능 차이라고 보기에는 어려움이 있습니다. 특히 OpenAI의 경우 GPT-5 모델을 개발 중이라는 사실을 감안하면 더 그렇습니다.

여러 요소를 종합적으로 봤을 때, 이번 구글의 제미나이 발표가 가져온 의미는 다음과 같습니다.

기술 격차

이번 발표를 통해 구글이 OpenAI를 넘어섰다는 평가를 기대하기에는 현실적인 어려움이 있습니다. 다만 대중에게 두 기업 간의 기술 격차가 충분히 줄어들었다는 인식은 심어줄 수 있을 것으로 보입니다.

목표 일치

비록 이번 데모 영상이 조작 논란에 휩싸이긴 했지만, 한 가지 확실한 것은 이러한 논란이 벌어지기 전까지 많은 사람들이 데모 영상에 환호했다는 것입니다. 대중의 니즈를 정확히 알고 있다는 점은 제품을 기획할 때 매우 큰 플러스 요인인데요. 이번 발표로 구글은 자신들의 목표와 대중의 기대가 일치한다는 확신을 가졌을 겁니다.

확장성

중요한 사실은 이러한 기술력을 보여준 곳이 새롭게 떠오르는 스타트업이 아닌 구글이라는 점입니다. 구글은 명실상부 테크 기업의 선두 주자로서 소프트웨어, 클라우드, 디바이스 등 다양한 분야에 영향을 끼치고 있는데요.

생성형 AI 기술은 다양한 산업과 결합하기 유용한 기술인만큼, 최고에 근접하는 생성형 AI 기술을 보유하고 있다는 사실을 알린 것만으로도 구글에는 강력한 힘이 될 수 있습니다. 마이크로소프트의 클라우드 서비스인 ‘애저’가 최근 생성형 AI 기술 덕을 크게 본 것과 같은 맥락입니다.

구글은 이 기회를 놓치지 않고 곧바로 실행에 옮겼습니다. 제미나이를 출시한 지 일주일 만에 ‘기업용 서비스’로 확장한다는 내용을 추가로 발표한 것인데요. 주요 내용을 살펴보면, ‘제미나이 프로’ 모델을 구글 클라우드 AI 플랫폼인 ‘구글 AI 스튜디오’와 ‘버텍스 AI’에 적용하여 기업들이 스스로 맞춤형 AI를 생성할 수 있도록 지원하는 것입니다. 특히 AI 제작 과정을 노코드 방식으로 구현한 점이 주목할 만한데요. 이는 마이크로소프트뿐만 아니라, OpenAI가 나만의 챗봇(GPTs)을 노코드로 만드는 과정까지도 같이 견제한 것으로 해석해 볼 수 있습니다.

마지막으로 구글이 이러한 결정을 신속하게 내릴 수 있었던 이유는 마이크로소프트가 OpenAI에 기술적인 의존도가 높은 반면, 구글은 자체 개발을 통해 더욱 빠르게 의사 결정을 할 수 있다는 결정적인 차이가 있기 때문입니다. 이를 통해 구글은 향후 서비스 개선과 시장을 공략하는 데 유리한 고지를 선점할 수 있을 것으로 기대됩니다.

이처럼 구글의 제미나이 발표 소식은 다양한 반응으로 엇갈리고 있지만, 시장의 경쟁 구도와 AI의 미래에 대해 큰 영향을 미쳤다는 사실은 부정할 수 없습니다. 과연 구글이 이번 발표를 통해 전통적인 강자로서의 위용을 되찾을 수 있을지, 아니면 무리수로 작용하여 다시 한번 어려움에 직면하게 될지는 좀 더 지켜보아야겠습니다.