<p style="text-align:justify;">빅테크 기업 치고는 유독 인공지능에 소극적이었던 애플의 행보가 최근 들어 심상치 않습니다. 애플은 지난 5월 앤트로픽의 클로드를 탑재한 iOS용 모바일 앱을 발표한 바 있는데요. 최근에는 자사 AI 플랫폼 ‘애플 인텔리전스’를 발표하며, 오픈AI의 최신 멀티모달 AI 모델 ‘GPT-4o’를 탑재할 계획을 밝히기도 했습니다. 더 나아가 애플은 올해 9월 자사 기기에 구글의 제미나이(Gemini)를 활용하기 위한 파트너십 체결에 대해서도 발표할 예정입니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">이로써 애플은 생성형 AI 기술의 선구자 격인 오픈AI, 구글, 앤트로픽 3사를 모두 아우르는 생성형 AI 플랫폼을 바탕으로, 자사 프로덕트를 고도화할 야심 찬 계획을 구체화하고 있습니다. 현 수준 최고의 성능을 자랑하는 SOTA(State-of-the-art) 모델들이 탑재된 애플 OS는 새로운 차원의 인공지능을 경험하게 해 줄 것으로 보입니다.</p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://yozm.wishket.com/media/news/2696/Apple-WWDC24-Apple-Intelligence-hero-240610.jpg"><figcaption>iPhone, iPad, Mac 전용 개인용 인공 지능 시스템 ‘Apple Intelligence’ <출처: <a href="https://www.apple.com/kr/newsroom/2024/06/introducing-apple-intelligence-for-iphone-ipad-and-mac/"><u>애플</u></a>></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">사실 시리(Siri)는 그동안 스마트 어시스턴트라는 명칭이 무색하게 답답한 모습으로 악명이 높았습니다. “5분 타이머 맞춰줘” 같은 간단한 명령조차 잘 알아듣지 못하는 시리에게 회의록을 쓰고, 알아서 스케줄을 짜주기를 기대하는 것은 어불성설이었죠. 그러나 최신 생성형 AI 기술로 무장하게 될 시리는 다를 겁니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">생성형 AI가 결합된 아이폰은 앞으로 어떻게 달라질까요? 시리는 회의록을 요약해 동료에게 공유해 달라는 요청을 처리해 주는 것은 물론이고, 이에 맞춰 스케줄을 짜 주는 진정한 개인 비서로 진화할 것입니다. 또한 특정 자료가 이메일이나 문자, 사진첩 등 어디에 있는지 모를 때도, 질문 하나만으로 정확히 이해하고 찾아줄 수 있고요.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">그렇다면 정해진 질문 몇 개만 간신히 대답할 수 있었던 시리는 생성형 AI와 만나 어떻게 똑똑해질 수 있을까요? 이번 글에서는 생성형 AI의 기본적인 작동 원리와 애플 인텔리전스의 아키텍처에 대해 살펴보겠습니다.</p><div class="page-break" style="page-break-after:always;"><span style="display:none;"> </span></div><h3 style="text-align:justify;"><strong>시리의 아키텍처</strong></h3><p style="text-align:justify;">시리 아키텍처는 크게 두 가지 주요 기술인 자연어 처리(NLP)와 음성 인식(Voice Recognition)을 기반으로 구성되어 있습니다.</p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://yozm.wishket.com/media/news/2696/image5.png"><figcaption>시리의 시스템 아키텍처 <출처: 애플 Machine Learning Research></figcaption></figure><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>1. 자동 음성 인식(ASR)</strong></h4><p style="text-align:justify;">컴퓨터가 음성 데이터를 문자로 바꾸어 인식하는 자동 음성 인식(ASR, Automatic Speech Recognition)은 음성 데이터로 된 사용자의 명령을 시리가 이해할 수 있도록 문자 데이터로 변환하는 과정입니다.</p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://yozm.wishket.com/media/news/2696/image1.png"><figcaption>시리의 음성인식 <출처: 애플 Machine Learning Research></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">시리의 작동 원리를 이해하기 위해 애플 ‘Machine Learning Research’에서 공개한 시리의 아키텍처를 뜯어보겠습니다. 우선 사용자가 "Hey Siri"와 같이 명령어를 말하면, 시리를 작동시키는 음성 트리거(Voice Trigger) 프레임워크가 음성 데이터를 수신하고 이를 처리합니다. 이때 음성 데이터는 코어 오디오(Core Audio)를 거치게 되는데요. iOS 장치의 음성 하드웨어와 연결해 음성 데이터를 캡처한 뒤, 음성 트리거로 전달하여 음성 데이터에서 트리거 단어를 식별합니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">다음으로 탐지 임곗값으로 트리거 단어를 식별하기 위해, 필요한 신뢰도 수준을 설정합니다. 여기서 탐지기(Detector)가 음성 데이터가 탐지 임곗값을 초과하는지 확인합니다. 탐지 임곗값을 초과하는 음성 데이터를 감지하면 웨이크업 이벤트를 발생시킵니다. 예를 들어, ‘Hey Siri, 신나는 노래 틀어줘’라는 문장에서 중요한 단어(임계점을 넘은 단어)와 그렇지 않은 단어를 구별한 뒤, 중요한 단어에 대한 명령만 처리하는 방식입니다.</p><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>2. 자연어 처리(NLP)</strong></h4><p style="text-align:justify;">다음은 텍스트로 변환된 데이터를 다루는 자연어 처리(NLP, Natural Language Processing)입니다. 자동 음성 인식(ARS) 부분에서 웨이크업 이벤트가 발생하면 시리 서버가 활성화되고, 음성 데이터가 시리 서버로 전달됩니다. 음성 데이터가 입력되면 사용자의 첫 번째 단어를 확인하여 요청의 유형을 식별하는데요. 서버에서는 요청 유형이 지원되지 않거나, 사용자의 발언이 명확하지 않으면 요청을 취소하기도 합니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;"><strong>시리 서버와 연동된 데이터 팩(Data Pack)에는 시리의 언어 모델(Language Model)과 지식 기반 데이터가 포함되어 있는데, 이 부분이 바로 시리의 성능을 결정짓는 두뇌와도 같습니다.</strong> 텍스트 데이터 전처리와 토큰화(Tokenization)를 거친 데이터는 기존의 RNN과 LSTM, GPT와 같은 Transformer 기반의 딥러닝 기반 알고리즘을 통해 사용자의 명령이나 질문의 의도를 파악하고 답변을 생성해 냅니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">위의 과정을 모두 거친 뒤에 시리는 이를 다시 음성 데이터로 변환(TTS, Text-To-Speech)하여 사용자에게 전달합니다. 이러한 과정을 거치면 사용자는 비로소 iOS에 설치된 시리 클라이언트를 통해, 음성 피드와 동작 제어 결과를 받아볼 수 있죠.</p><p style="text-align:justify;"> </p><p style="text-align:justify;"> </p><h3 style="text-align:justify;"><strong>생성형 AI 기반 시리는 기존과 어떻게 다를까?</strong></h3><p style="text-align:justify;">기존의 시리는 비교적 단순한 딥러닝 모델들을 기반으로 한 아키텍처에 의존했는데요. 최신 생성형 AI 모델인 GPT-4와 제미나이 그리고 Claude와 같은 모델을 탑재하면서, 자연어 이해 및 처리 능력이 비약적으로 향상됩니다. 그렇다면 생성형 AI(Generative AI)는 기존의 딥러닝 기반 언어모델과 비교해 어떤 점이 다를까요?</p><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>1. 방대한 양의 매개변수(parameter)와 사전 학습 데이터</strong></h4><p style="text-align:justify;">우선 방대한 양의 텍스트 데이터를 통해 사전 학습(pre-trained)된 생성형 AI 모델은 문맥을 이해하고, 복잡한 질문이나 명령을 처리하는 데 훨씬 뛰어납니다. 이를 통해 시리는 사용자가 무슨 말을 하는지 더 잘 이해할 수 있죠. 마찬가지로 생성형 AI가 탑재된 시리는 사용자가 같은 요청을 여러 가지 다양한 표현으로 말할 때도 유연하게 인식하고 대처할 수 있습니다.</p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://yozm.wishket.com/media/news/2696/image3.png"><figcaption><출처: geeksforgeeks></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">그 밖에도 생성형 AI 모델이 기존의 딥러닝 모델에 비해, 압도적인 성능을 자랑하는 비결은 천문학적인 수의 매개변수(parameter)와 관련이 있습니다. 딥러닝 모델의 가중치(weight)과 편향(bias) 정보를 담고 있는 매개변수는 우리 두뇌의 뉴런과도 같습니다. 예를 들어, 약 1.17억 개(117 million)의 매개변수로 시작된 GPT의 초기모델인 GPT-1은 GPT-3.5(챗GPT)가 되어, 1,750억 개의 매개변수에 이르기까지 그 폭발적인 성장을 이룹니다. 이후 발표된 GPT-4와 GPT-4o는 조 단위의 매개변수를 자랑하며, 그에 비례하는 엄청난 성장을 이루어 냈습니다.</p><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>2. 개인화된 경험 제공</strong></h4><p style="text-align:justify;">생성형 AI의 또 다른 특징은 사용자의 이전 상호작용과 선호도를 학습하여, 더욱 개인화된 경험을 제공할 수 있다는 데에 있습니다. </p><p style="text-align:justify;"> </p><p style="text-align:justify;">예를 들어, 사용자가 자주 하는 요청이나 선호하는 음악, 일정 관리 스타일 등을 학습하여 맞춤형 서비스를 제공하거나, 사용자에게 무엇이 필요한지 예측해 제안할 수 있습니다. 자주 가는 장소를 기반으로 교통 정보를 제공하거나, 자주 연락하는 사람에게 메시지를 제안하는 것도 가능하죠. 이는 사용자에 대한 데이터가 쌓이면 쌓일수록, 점점 더 똑똑한 개인 비서로 진화할 것입니다.</p><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>3. 멀티모달 인터페이스</strong></h4><figure class="image image_resized" style="width:100%;"><img src="https://yozm.wishket.com/media/news/2696/image2.png"><figcaption><출처: kdnuggets></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">GPT-4와 같은 SOTA 생성형 AI 모델들은 기본적으로 텍스트뿐만 아니라, 이미지, 비디오 등의 다양한 데이터를 처리할 수 있는 멀티모달 인터페이스를 기반으로 합니다. 예를 들어, 사용자가 사진을 보여주며 설명을 요청할 때, 시리는 이미지를 분석해 관련된 정보를 제공할 수 있습니다. 비디오에서 필요한 정보를 추출하여 사용자에게 설명하는 것도 가능하고요.</p><p style="text-align:justify;"> </p><p style="text-align:justify;"> </p><h3 style="text-align:justify;"><strong>스마트 어시스턴트의 미래는?</strong></h3><p style="text-align:justify;">이제 시리는 생성형 AI 기술을 통해 완전히 다른 수준으로 진화하고 있습니다. 빅스비나 알렉사 같은 스마트 어시스턴트도 마찬가지고요. 생성형 AI는 대화의 맥락을 이해하고 학습하여, 사용자의 복잡한 요구사항을 더 정확하고 유연하게 대응할 뿐만 아니라, 누구보다도 나를 잘 아는 개인 비서로 진화하고 있습니다. 영화 ‘그녀(Her)’에 등장하는 사만다는 이미 현실이 된 셈이죠.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">그러나 개인 데이터를 바탕으로, 생활 패턴이나 사생활 정보까지 모두 알고 있는 스마트 어시스턴트에 대한 경계도 늦춰선 안 됩니다. 생성형 AI를 둘러싼 데이터 유출과 윤리적 이슈들은 여전히 논의 중이며, 생성형 AI 활용에 앞서 반드시 해결되어야 하는 문제이기 때문입니다.</p><hr><p style="text-align:justify;"><strong><참고></strong></p><ul><li style="text-align:justify;"><a href="https://machinelearning.apple.com/research/hey-siri"><u>Hey Siri: An On-device DNN-powered Voice Trigger for Apple’s Personal Assistant</u></a></li><li style="text-align:justify;"><a href="https://www.geeksforgeeks.org/introduction-to-generative-pre-trained-transformer-gpt/"><u>Introduction to Generative Pre-trained Transformer (GPT)</u></a></li><li style="text-align:justify;"><a href="https://www.kdnuggets.com/2023/03/multimodal-models-explained.html"><u>Multimodal Models Explained</u></a></li><li style="text-align:justify;">THE AI, <a href="https://www.newstheai.com/news/articleView.html?idxno=5883"><u>애플, 구글·앤트로픽과 AI 협력 논의... "개방형 전략 나선다"</u></a></li></ul><p style="text-align:justify;"> </p><p style="margin-left:0px;text-align:center;"><span style="color:rgb(153,153,153);">요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.</span></p>