음성 AI의 진화를 이끌어 낸 딥러닝

7분

2021.02.10.

3.8K

사진 1: 영화 ‘아이언맨’

영화 <아이언맨>에서 주인공 토니 스파크는 “자비스!, 자비스!”하며 이름을 계속 부릅니다. 주인공은 단순히 이름만 부르거나 대화만 하는 것이 아니라 업무 지시까지 하는데, 자비스는 업무도 능숙하게 해냅니다. 여기서 자비스는 주인공의 개인 비서일까요? 네. 비서는 맞지만, 사람이 아닌 음성 AI라는 것이 특이한 점입니다. 이 영화를 처음 봤을 때만 해도 ‘아 저런 세상이 올까’ 했는데 놀랍게도 그런 세상이 우리 곁에 와 있습니다. 지금 우리는 음성 AI와 함께 하는 세상을 살아가고 있는데요. 음성 AI와 보내는 하루 일상을 잠깐 살펴보겠습니다.

음성 AI와 보내는 하루

“일어나세요. 6시입니다.” 바로 인공지능인 음성 AI의 목소리입니다. 또 아침 알람을 알리는 목소리와 하루를 여는 음악도 들립니다. 그리고 말만 했을 뿐인데, 출근 전 업무를 할 수 있도록 통화 연결도 해주고, 내가 원하는 정보와 날씨도 찾아주고 하루 일정도 알려줍니다. 이어서 ‘따뜻한 물’이라고 말하면 욕실의 세면대나 욕조에 물도 채워줍니다. 음성 AI와 목욕탕 시스템이 연결되었기 가능한 일입니다.

출근 준비가 다되면 자동차 내부의 온도도 미리 맞출 수 있습니다. 주차장에서 자동차 문을 여니 탑승하기 적절한 온도입니다. 이제 ‘가장 가까운 경로 찾아 줘.’라는 말 한 마디면, 교통 시간을 단축시켜 주기까지 합니다. 퇴근이 가까워지면 아침처럼 지시를 하고, 집에 들어가기 전 음성 AI와 연결된 스마트 시스템으로 조명 또는 보일러를 켜거나, 세탁기를 미리 켜는 등 집안일을 미리 작동하게 할 수 있습니다. 이 모든 것들이 예전에는 영화 속 이야기였는데, 이제는 지금, 현재에서 가능한 일들이 되었습니다. 10년 전 까지만 해도 ‘영화 속 장면이겠지, 아주 먼 미래의 일일 거야.’ 했던 일들이 우리 주변에서 하나씩 현실로 펼쳐지고 있습니다. 예로 든 장면처럼 실제로 음성 AI 기술은 우리 일상 속에서 어렵지 않게 발견할 수 있는 데요. 음성 AI 기술이 상용화되기 시작했을 때는 스마트폰, 태블릿PC 등 단말기기에 적용되는 정도였는데, 이제는 단말기기를 넘어 AI 스피커부터, 스마트TV, 자동차, 하우스 시스템 등 여러 분야에서 실용화되고 있습니다. 그리고 점차 4차 산업 기술의 발전과 함께 음성 AI 기술은 우리 삶의 자연스러운 일부가 되어갈 것으로 보입니다. 오늘은 음성 AI가 세상을 알아가는 방식을 이해하기 위해 AI의 학습방법을 알아보려고 하는데요. 즉 음성 AI의 학습법인 딥러닝(Deep Learning) 기술의 시작과 실행 과정에 대해서 알아보겠습니다.

AI 음성 기술의 시작

AI 음성 기술이 언제 시작했는지를 살펴보려면 1954년까지 거슬러 올라가야 합니다. 물론 그 전에 수학이나 철학, 공학, 컴퓨터 등 다양한 분야의 과학자들이 인공적인 두뇌에 대해서 논의하기도 했습니다. 하지만 학문으로 인정되기 시작하여 본격적으로 논의됐던 것은 1954년인데요. 컴퓨터 전문 회사인 IBM과 미국의 조지타운대학이 진행한 기계를 번역한 프로젝트로 세상에 알려지기 시작했는데, 이 기술이 급 물살을 타기까지는 생각보다 많은 세월이 흘러야 했습니다. 그 이유는 이 기술이 상용화되는데 필요한 인공지능 AI 기반의 빅데이터 처리 기술이 축적되지 않았기 때문입니다. 그 후, 오랜 시행착오를 거쳐 2000년대 중반에 들어서면서 서서히 모습을 드러내기 시작합니다.

여기서 음성 AI를 이루는 기술을 간략하게 보면 음성 AI 기술은 크게 빅데이터, 딥러닝, 클라우드 등 세 분야로 나눌 수 있습니다. 음성 AI를 이용하는 유저가 특정 음성을 해당 기기에 입력하면 유저가 송출한 음성은 데이터를 기반으로 검색되고 분류되어 컴퓨터가 이해할 수 있는 자연어가 됩니다. 이 때 컴퓨터는 이 자연어를 클라우드로 전달해 빅데이터를 관리하게 됩니다. 이때 음성 AI의 중요한 과정인 딥러닝 과정이 필요한데요. 초창기 음성 AI는 단순한 명령에만 반응하고 수행하는 정도가 전부였습니다. 한편으로는 빅 데이터가 축적되지 않았기 때문이었는데, 기술의 발전과 함께 점차 다양한 분야의 데이터가 축적되면서 음성 AI의 발전이 가속화되었습니다. 이 과정에서 음성 AI의 발전을 이끈 것은 방대한 빅데이터를 분류하고 학습하게 해주는 딥러닝이 있었기 때문입니다. 딥러닝의 발전으로 음성 AI가 상용화되기 전 문제점으로 지적 받았던 음성 인식 오류를 상당히 줄일 수 있어 정확도를 높일 수 있었습니다. 그 결과 2010년대 이후 등장한 딥러닝 기술이 적용되면서 음성 인식의 정확도는 비약적으로 향상되었습니다.

음성 AI를 스마트하게 하는 디코딩

음성 AI의 딥러닝 과정은 AI를 스마트하게 만드는 과정인데요. 딥러닝의 데이터가 많아질수록 성능과 정확도가 높아지기 때문에 음성 인식 기능 향상을 위해서는 방대한 언어 자료를 수집하고 분석하는 데이터 분석 기술이 필요합니다. 이를 음성 AI의 핵심 기술, ‘디코딩(Decoding)’이라 하는데 음성 신호를 문자 기호로 해석하는 것을 의미하며, 이 알고리즘을 우리는 디코더(Decoder)라고 부릅니다. 이 디코딩 단계에서는 입력된 음성을 음향 모델과 언어 모델 벡터와 비교한 값이 산출되어 나옵니다. 이후 그 값을 토대로 최종 단계의 단어열을 결정하여 음성 AI가 인식하는 자연어를 생성합니다. 이 과정에서 딥러닝 기반의 HMM(hidden Markov model) ∙DNN(Deep Neural Network) 방식이 적용되게 됩니다. 여기서 HMM과 DNN은 빅데이터가 겹겹이 쌓인 누적된 신경망이라고 생각하면 되는데, 이 방식으로 음성 AI의 단어 오류를 거의 잡아낸다고 할 수 있습니다. 그리고 음성 AI를 더욱 진화하게 한 기술이 있는데, 시퀀스-투-시퀀스(sequence-to-sequence) 방식의 RNN(Recurrent Neural Network)입니다. 이 방식은 음성 AI의 속도와 성능 면에서 유저들을 만족시키고 있습니다.

음성 AI의 송출 서비스: 서버-클라이언트

앞에서 살펴본 것처럼 딥러닝 과정을 거친 음성 AI는 음성 녹음과 데이터 처리를 동시에 실행한 이후 클라우드 서버로 전송됩니다. 그 다음 결과가 디바이스로 전송되어 현재 우리에게 제공되는 음성 AI의 음성이 됩니다. 이것을 서버-클라이언트라고 부르는데요. 서버-클라이언트가 작동되는 조건은 바로 온라인 상태입니다. 즉 네트워크가 연결된 상태에서만 작동하는데요. 이 부분이 오늘날 음성 AI 기술이 해결해야 할 과제입니다. 언젠가는 온라인이 아닌 오프라인 상태에서도 음성 AI 인식 서비스를 이용할 수 있지 않을까 하는 기대도 해봅니다. 지금까지 음성 AI의 진화와 이 진화를 이끌어낸 음성 AI 속 딥러닝 과정에 대해서 알아보았습니다. 영화 속 세상이 현실에서 펼쳐질 것이라고 감히 상상도 못했던 일들이 현실에서 일어나고 있습니다. 아직 영화 장면처럼 음성 AI와 인간이 막힘없이 대화하는 정도는 아니지만, 이런 시대도 가까운 미래에 일어날지도 모릅니다. 다음 편에는 가까운 미래에는 음성 AI가 어떻게 발전할지, 또 우리 삶은 어떻게 변화할지 살펴보겠습니다.