인간은 하루 평균 700개의 단어를 말합니다. 우리에게 생각과 정보를 교환하는 가장 일반적인 방법으로는 인스턴트 메시지, 전화 통화, 책, 영화, 노래, 면대 면(F2F) 구두 커뮤니케이션 등이 있는데요. 베르니케-리히트하임-게슈빈트(Wernicke-Lichtheim-Geschwind) 모델에 의하면, 인간의 두뇌는 베르니케(Wernicke)영역이라고 부르는 특수한 언어 수용 센터를 통해서 단어들을 받아들인다고 합니다. 그 다음, 두뇌의 전두엽에 있는 단어 생산 센터라고 하는 브로카(Broca)영역으로 이 단어들을 투사하는데요. 어떤 사람이 "잘 지내세요?"라고 물으면, 이 정보는 베르티케 영역이 받아 해석을 하고, 그다음에는 브로카 영역에서 단어들을 조합해 "저는 잘 지내요, 고마워요."라는 대답을 만들어냅니다. 이처럼 인간의 두뇌는 수백만 개에 달하는 뉴런(neuron)의 도움을 받아서 단어들을 이해하고 행동을 취하게 됩니다. 그렇다면 기계가 인간의 언어를 처리한 다음, 올바른 단어들로 이루어진 조합을 만드는 것은 어떻게 가능한 걸까요? 이를테면, 여러분이 시리(Siri)와 같은 음성 어시스턴트에 대고 말을 할 때, 그게 여러분의 말과 의도를 이해한 다음, 다시 여러분에게 대답하는 것과 같은 원리 말입니다. 기계가 인간처럼 말하는 방법을 배우는 기술을 자연어 처리(NLP)라고 부릅니다. 이 기술은 인간과 기계 사이의 상호작용을 다루는 인공지능(AI)의 한 분야입니다. NLP는 기계가 들은 내용을 처리하고, 받은 정보를 구조화하고, 필요한 반응을 탐색하여 사용자가 이해할 수 있는 언어로 대응할 수 있는 능력을 제공하죠. 자연어 처리의 활용 사례 중에는 음성 어시스턴트만 있는 것이 아닙니다. 생각보다 이 기술을 사용한 흥미로운 애플리케이션들은 아주 많이 있는데요. 오늘 위시켓은 자연어 처리를 활용한 흥미로운 사례들을 여러분께 소개해드리겠습니다.

01. 자동번역 (Machine Translation)

기계에 의한 자동 번역은 전산언어학(computer linguistics)의 하위 분야입니다. 전산 언어학은 텍스트 또는 말을 한 언어에서 다른 언어로 번역하는 소프트웨어 애플리케이션을 사용하는데요. 자동 번역의 가장 대표적인 사례로는 구글 번역(Google Translate)을 들 수 있습니다. 구글 번역의 경우, 매일 1천억 개 이상의 단어를 번역한다고 알려져 있죠. 구글 번역에서는 문장 전체를 한 번에 번역하기 위해서 인공적인 신경 네트워크(딥러닝)를 사용하는 신경망 기계 번역(neural machine translation) 방식을 활용하고 있습니다. 이는 예제 기반의 자동 번역 방식을 사용하는데, 더 좋은 결과를 만들어 내기 위해서 수 백 개의 예제를 학습합니다. 하지만, 인간의 언어가 모호한 부분이 많기 때문에 시스템이 단어와 문장 그리고 의도를 이해하는 걸 어렵게 만들기도 합니다. 이때, 자연어 처리를 통해 문제점을 해결하는 데 도움을 받을 수 있습니다.

02. 대화형 사용자 인터페이스(Conversational User Interface)

대화형 사용자 인터페이스(CUI)는 컴퓨터가 실제 사람과의 대화를 모방하는 컴퓨터를 위한 인터페이스입니다. 그 예로는 챗봇(chabot)이 있죠. 챗봇은 기계와 사람이 텍스트를 통해서 대화할 수 있는 인터페이스를 갖추고 있습니다. 챗봇의 역사와 발전은 아주 인상적인데요. 미리 정해진 Q&A 모음을 제공하는 고객 서비스 대행 역할을 하는 것부터 시작해서 모바일 앱의 대안으로 자리를 잡기까지, 챗봇은 지금까지 많은 발전을 이루었습니다. 챗봇은 Q&A 플랫폼의 역할을 하는 텍스트 기반의 CUI입니다. 사용자들이 주문을 하고, 자신의 주문 상태를 확인하고, 정보를 분류하고, 항공 티켓을 예약하고, 금융 거래를 하고, 마케팅 활동을 개선하는 등의 역할을 가능하게 해주는데요. 챗봇이 복잡한 임무를 수행하기 위해서는, 사용자가 입력하는 내용을 이해하고, 그것을 해석하고, 적절하게 대응할 수 있어야 합니다. 바로 이 지점이 자연어 처리가 중요한 역할을 하는 부분이죠.

03. 텍스트 예측(Text Prediction)

텍스트 예측은 어떤 구문이나 문장에서 다음에 올 단어를 예측하는 프로세스를 말하는 겁니다. 이러한 텍스트 예측에서 가장 유명하면서도 일반적인 사례는 바로 구글 검색입니다. 구글에서는 미리 훈련된 모델을 생성하기 위해서 신경 네트워크를 활용하는 자연어 처리(NLP) 알고리즘인 버트(BERT)라는 기법을 사용하고 있습니다. 이 모델은 인터넷에서 사용할 수 있는 방대한 양의 주석이 달리지 않은 텍스트를 활용해서 훈련을 하는데요. 버트의 알고리즘은 검색 엔진이 사람과 비슷한 방식으로 검색어를 이해할 수 있도록 도와줍니다. 그 외에도 구글 문서, 지메일(Gmail) 작성과 같은 수많은 애플리케이션에서도 텍스트 예측이 도움을 주는 자연어 처리 모델을 활용하고 있습니다.

04. 감성 분석(Sentiment Analysis)

감성 분석은 텍스트 데이터 안에서 감정을 해석하고 분류하는 프로세스입니다. 일반적으로 특정한 비즈니스와 관련된 애플리케이션을 사용하는 기업들이 감성 분석을 활용하면, 온라인 피드백에서 고객이 서비스, 브랜드, 제품에 대해서 보이는 정서를 (긍정적, 부정적, 중립적인지에 대해서) 파악할 수 있습니다. 감성 분석이 탁월한 활약을 보이고 있는 곳으로는 제품 분석, 시장조사, 평판관리, 정밀한 타겟팅(Targeting), 시장 분석, 홍보, 순 추천 고객지수(NPS) 등이 있습니다.

05. 텍스트 분류(Text Classification)

제대로 체계를 갖추지 못한 텍스트는 어느 곳에나 있습니다. 이메일, 소셜 미디어, 웹사이트, 채팅 내용 등 일부 분야에서는 자연어 처리에 의한 텍스트 분류가 필수적이며, 상당히 엄격하게 사용되고 있죠. 텍스트 분류 알고리즘은 대규모의 텍스트 데이터를 처리하는 소프트웨어 시스템에서 그 기초를 제공하고 있습니다. 예를 들면, 이메일 소프트웨어는 텍스트 분류를 통해서 이메일에 태그를 붙여 특정한 카테고리를 나눌 수 있으며, 이를 통해 받은 편지함 또는 스팸메일함으로 편지를 보낼 수 있습니다. 또한 지메일 소프트웨어에서는 이메일들을 기본(Primary), 소셜(Social), 프로모션(Promotion)으로 자동 분류하고 있는데, 이것은 자연어 처리를 활용해서 텍스트를 분류하는 가장 대표적인 사례입니다. 텍스트 분류가 뛰어난 능력을 발휘하는 또 다른 분야는 토론 포럼입니다. 이런 분야에서는, 어떤 댓글이 부적절하다고 표시가 될 필요가 있는지를 텍스트 분류 알고리즘을 통해서 판단합니다. 이와 함께 전자상거래, 뉴스 에이전시, 콘텐츠 큐레이터와 같은 플랫폼에서는 텍스트 분류를 활용해서 자동적으로 콘텐츠/ 제품/ 서비스에 태그를 달고 있습니다.

06. 맞춤법 검사(Spell Check)

맞춤법 검사 프로그램은 어떤 텍스트 안에서 잘못 표기된 철자나 오타가 있는지를 확인하고 수정해 주는 소프트웨어 애플리케이션입니다. 이러한 맞춤법 검사 프로그램의 대표적인 사례는 바로 그래멀리(Grammarly)입니다. 그래멀리는 다양한 텍스트 문서에서 연동할 수 있는 도구이며, 사용자들이 내용을 계속해서 작성하는 동안 맞춤법 검사를 자동적으로 수행해서 수정안을 표시해 주죠. 맞춤법 검사 프로그램은 문서화된 형식을 갖추고 생성하는 소프트웨어 애플리케이션에서 매우 중요한 역할을 하지만, 사용자들이 맞춤법을 틀리는 경우가 많은 인터넷에서도 상당히 중요한 부분을 차치합니다. 그리고 이러한 기능을 통해서 검색 결과에도 긍정적인 영향을 미칠 수 있습니다.

07. 음성인식(Speech Recognition)

음성 인식 기술은 약 70년 동안 존재해왔습니다. 최초의 음성인식 시스템은 1952년에 벨 연구소(Bell Laboratories)가 선보인 것이었습니다. 오드리(Audrey)라고 알려진 이 시스템은 한자리 숫자를 인식할 수 있었습니다. 이후 IBM에서는 영어 단어 16개를 이해하고 반응할 수 있는 슈박스(Shoebox)를 선보였는데, 이것은 음성 인식을 위해서 자연어 처리가 사용된 첫 사례로 기록되었습니다. 오늘날에는 자연어 처리가 발전하면서 클릭이나 타이핑, 텍스트를 선택하는 것 이외에도 목소리가 시스템에 입력하는 하나의 방식으로 받아들여지고 있는데요. 어떻게 하면 기계가 인간의 음성을 인식하고, 그 의도를 이해하며, 적절하게 반응하는 것을 익힐 수 있는지에 대한 완벽한 사례는 바로 코타나(Cortana), 시리(Siri), 구글 어시스턴트(Google Assistance), 아마존 알렉사(Alexa) 등의 음성 어시스턴트입니다. 실제로 자연어 처리는 현재 음성 사용자 인터페이스(VUI)의 이면에 있는 핵심 기술입니다. 음성인식의 일반적인 또 하나의 사례로는 스마트폰에 있는 음성-텍스트 변환 기능이 있습니다. 이는 많은 스마트폰에서 기본 기능으로 탑재되면서, 사용자들이 이 기능을 이용할 수 있게 해주는 모바일 앱도 많이 나오게 되었죠. 음성-텍스트 변환 기능을 이용하면 사용자들이 오디오를 통해서 입력을 할 수 있고, 그다음에는 텍스트로 변환이 됩니다.

08. 문자 인식(Character Recognition)

광학 문자 인식(OCR)은 손글씨나 타이핑 글씨, 또는 인쇄된 텍스트의 이미지를 기계가 이해할 수 있는 코딩 언어로 변환하는 프로세스입니다. 인쇄된 텍스트를 디지털로 전환하기 위해서 흔히 사용되는 방법이며, 이를 통해서 텍스트가 전자적으로 저장되고, 편집되고, 검색될 수 있습니다. OCR(광학문자인식)과 NLP(자연어 처리)는 신분증이나 여권을 자동으로 읽어서 인식하고, 데이터를 다양한 양식이나 CRM(고객관계관리) 정보로 입력하고, 다양한 출처에서 얻은 고객 정보를 검증하고, 은행 카드/ 각종 지표/ 수표/ 티켓 등을 즉시 스캔하는 등의 문서 관련 업무에서 다양한 혜택을 제공합니다.

이 글은 '7 Interesting Applications of Natural Language Processing (NLP)'을 각색하여 작성되었습니다.