AI에는 세 가지 방법이 있는데, 그 방법들은 바로 음성인식, 콘텐츠 이해와 활용, 콘텐츠 만들기입니다. 음성인식과 꾸준한 받아쓰기 기능이 인간과 시스템의 상호작용을 만들어냅니다. 시장에 가장 많이 나와있는 프로젝트는 챗봇 서비스(CUI)입니다. 챗봇은 사용자와 인터페이스 간의 대화라는 개념으로 이해하면 좋으며, 다양한 유스 케이스와 디바이스, 그리고 업장의 경험 디자인과 사용 타겟에 따라 VUI/VUX, 즉 대화문이 만들어집니다. 또한, 모빌리티, TV에 DUX, DUI라고 불리는 것이 있습니다. 이는 우리가 귀로 듣는 음성을 화면과 연동하여 사용자가 피드백과 결과를 눈으로확인하게끔 합니다.

음성인식 UX 기획 기초용어

VUX/VUI(Voice UX, UI)

우리가 가장 많이 쓰는 UI는 GUI로 시각적으로 보이는 화면을 제작하는 작업이 가장 많습니다. 그러나 엄밀하게 말하면 UI의 정확한 의미는 “화면”이 아니라 “사용자와 만나는 최종 접점”입니다. 우리가 서비스 기획부터 수많은 작업과 프로세스를 거쳐, 서비스를 만들게 되지만 결국 엔드 유저 즉, 고객과 직접적으로 만나게 되는 것을 UI라고 보는 것입니다. 따라서 우리 눈에 보이지는 않지만 스피커로 고객과 주고받는 대화도 UI에 해당하며, 이를 Voice(음성)로 고객과 만나는 지점, Voice User Interface, VUI로 부르고 있습니다. 한 가지 유의할 점은 모든 음성 기획이 VUI는 아니고 고객과 AI와의 대화, 인터랙션 과정이라는 점을 꼭 탑재하세요.

DUX/DUI(Display UX, UI)

DUX와 DUI는 무엇일까요? 이미 음성 화면을 경험한 분들은 아시겠지만, 스피커는 고객과 대화를 주고받는 것 외에 보조로 화면을 제공하여 사용자 인지를 돕는 과정이 있습니다. 쉽게 말해 음성인식 처리 단계 중에 시각적으로 보이는 UI를 말합니다. 아이폰의 시리를 호출했을 때, 노출되는 음성인식 레이어와 IPTV의 음성검색 전용 화면을 떠올린다면 이해가 되실 겁니다.

Voice Chrome

각각의 음성 처리 단계를 GUI로 표시하여, 각 단계에 대해 고객의 이해를 돕도록 제공합니다. 로딩 아이콘과 아이폰 Siri에서 움직이는 그래픽 요소로 음성 단계에 대한 인지를 돕습니다.

Contents Display(콘텐츠 영역)

음악 소스, 영화 콘텐츠 등 미디어 서비스의 콘텐츠 양이 많은 경우를 떠올려 보십시오. 고객이 특정 콘텐츠 호출을 요청했을 때, 기기의 특정 영역에는 그러한 콘텐츠를 호출할 영역이 필요합니다. 데이터를 노출하는 영역으로 보통 레이어가 추가로 기존 화면 위에 노출되며, 데이터를 호출하는 방식이 보편적입니다. 기획자는 절반(Half) 레이어 형태로 노출할지, 전체 화면(Full screen)을 덮을지를 정의합니다.

Feedback System(응답 시스템)

여러 응답 시스템을 연상하면 좋습니다. 음성인식이 아니더라도 사용자 경험을 설계 시, 여러 피드백이 동원되는데요. 디바이스가 있다면 LED의 점멸, 점등으로 각 단계와 상태를 고객에게 알릴 수 있습니다. 그 밖의 VUI와는 다른, 사운드 알림(SUI)으로 피드백을 전달할 수 있습니다.

Far Field Voice Recognition(멀리서도 사용자의 발화 인지가 가능한 상태)

고객이 Wake Up Word[1]를 발화하여, 기계가 음성 처리가 가능한 단계로 전환시키는 것을 말하며, 스피커와 근접한 거리가 아니라 다소 거리가 있을 경우를 말합니다. 블루투스의 기능이 몇 미터 이내로 작동하는 것과 같은 원리로 이해하면 좋습니다.

Multi-Turn

사용자 발화 명령을 최종적으로 수행하기 위해, 필수 정보를 사용자에게 요청하는 단계를 말합니다. 실행을 위해 범위를 좁혀가는 단계로 이해하면 좋습니다.

N-BEST List

다수의 결괏값이 존재하는 케이스를 말합니다. 터치 스크린에서는 이를 기획하는데 어려움이 없으나, 음성을 듣고 말하는 음성인식 설계에서는 결괏값이 여러 개인 경우가 있습니다. 화면으로 1차 호출한 후, 사용자로 하여금 1번, 혹은 3번과 같은 넘버링을 말하게 하여 최종 선택을 유도합니다.

Retry

사용자가 특정한 단어나 문장을 말하지 않는 경우, 예를 들어 “말씀해주세요”라고 기계에서 Retry를 주어 입력을 돕는 과정을 말합니다. ‘Designing Voice User Interface’ 책에 따르면, 오류가 발생했을 때마다 사용자에게 재입력을 요청하지는 않는다고 합니다. 아마존 에코는 사용자가 기동어를 말한 후, 아무 말이 없을 경우 재입력 요청은 없고, 사용자 발화를 이해하지 못할 경우엔 짧은소리만 제공하고 있습니다.

Prompt(프롬프트)

시스템이 사용자에게 하는 말을 의미합니다. 완벽한 문장 혹은 여러 문장이 될 수 있습니다. 또는 숫자, 날짜, 제품처럼 작은 단위의 정보가 될 수도 있습니다. TTS[2] 엔진에 입력할 리스트 혹은 성우가 녹음할 리스트를 일컫습니다.

피드백 시스템: 음성인식 처리 단계

대기상태(Idle)

Wake up으로 음성인식 대기상태로 전환이 가능한 단계를 말합니다.

음성인식(Waiting 대기상태)

Wake up 후, 사용자의 명령을 실시간으로 들을 수 있습니다. Wake up으로 물리적인 버튼을 누르거나, 이름을 불러 언제든 사용자에게 답변이 가능한 상태를 말합니다.

음성인식 듣는 중(Recording 녹음 가능한 상태)

사용자가 말을 시작하면 기계는 ‘듣는 중’으로 전환됩니다. 사용자 발화를 인지 가능한 상태를 말합니다. 화면이 제공되는 경우, 비주얼의 애니메이션으로 녹음 중이라는 상태를 표현하거나 텍스트를 노출합니다.

음성인식 처리 중(Recognizing 사용자가 발화한 음성을 분석 파악하는 중)

사용자가 말하면, 그 말을 이해하고 적절한 답을 주기 위해 처리하는 상태를 말합니다. 현 단계에서는 대기 단계로 전환이 불가능합니다.

로딩(Loading)

일반 서비스의 GUI와 동일하게 개발 퍼포먼스에 따라 사용자에겐 이 화면이 노출되지 않습니다. 하지만, 페이스북처럼 불러오는 콘텐츠가 무거운 경우엔 로딩 시간이 길어져, 사용자에게도 로딩 화면이 보이게 됩니다.

답변하기(Speaking)

사용자의 질문 혹은 발화에 적절하게 답변합니다. 보통 두 가지 형태로 답변하는데요. 첫 번째로 스피커가 사용자 질의에 대해 답변만 하는 경우가 있고, 두 번째로 사용자가 말한 명령을 바로 실행하거나, 화면에 결과를 노출하는 경우입니다. 예를 들어, 오늘의 날씨를 물었을 때 스피커가 몇 도인지 현재 시점에서 답변만 한다면 전자에 해당되며, 화면 밝기 조절 같은 시스템 환경을 조절하거나, 검색 결과를 화면에 노출하는 경우 후자에 해당합니다. 이렇게 구분함에 있어 절대적인 정답은 없다고 생각하지만, 시장의 기존 제품을 분석하고 이에 따르는 것이 가장 무난합니다.

음성 인식의 장애 처리

“사람과 얘기할 때 고칠 수 없는 오류가 발생하는 일은 없다.”

-에이비 존스, 구글의 디자인 책임자-

장애가 발생할 경우를 최소화하여 설계하는 것이 우선이지만, 어쨌든 현재 기술 선상에서는 사람과의 대화처럼 매끄럽지는 않습니다. VUI가 가진 많은 이점에도 불구하고, 사용자들은 무수한 장애로 음성인식 사용이 두려울 때가 많습니다.

VUI의 실수 혹은 오류

잘못 인식이 된 경우
정상적으로 녹음하고, 인지는 되었지만 해결 방식을 못 찾은 경우
음성은 입력되었지만 인지가 안된 경우
음성 자체가 인지되지 못한 경우
무응답 오류
에스컬레이팅[3] 오류
소음 발생

Summary

도널드 노먼[4]은 디바이스나 제품 기반의 사용자 경험보다 디지털과 소프트웨어의 사용자 경험의 역사가 짧아, 앞으로 더 많은 연구가 필요할 것이라고 말한 바 있습니다. 더욱이 VUI는 GUI 기획 설계에 비해 연구의 양이 현저히 적은 것도 사실이고, 아직은 사용자가 AI 서비스에 익숙해진 단계도 아닙니다. 그렇지만 AI에서 음성인식은 안전성이나 편의성 측면에서 유리하기 때문에 분명 앞으로의 미래 기술로 보고 있습니다. 추후 더 많은 연구와 발전을 기대해봅니다.

VUI 기획을 할 때 아래 내용을 고려해주세요!

AI 서비스와 여타 디바이스의 조화를 고려합니다. 각 서비스의 화면 속 공통 정책을 준수하여 AI 음성인식을 그 위에 올려준다는 느낌으로 기획합니다.
공감 가능한 음성 대화 VUI 설계합니다. AI는 인격을 부여하기 때문에 사람과 대화를 나누는 것처럼 할 필요가 있습니다. 어린아이와 대화를 나눌 때는 어린이 눈높이에서, 어른에게는 원인과 이유를 논리적으로 알려줍니다. 작업 후, 실제 상대를 앞에 두고 가상으로 롤플레이를 하여 어색함을 줄입니다.

<참고 자료>

Designing Voice User Interfaces, AI가 알려주는 비즈니스 전략

[1] 음성 처리 단계가 본격적으로 시작하게끔 하는 것으로 전원 기능과 비슷합니다. 이름으로 부르며 개인의 취향에 따라 이는 설정이 가능합니다. 영화 Her에서 주인공과 대화를 나누는 소프트웨어의 이름은 사만다입니다.

[2] TTS: Text to Speaking의 약자. Text는 밑줄과 볼드 처리로 강조를 할 수 있지만 이를 TTS로 구현하기는 어렵습니다. 운율에 변화를 적용할 수 있지만, 이는 기술 구현상 어렵습니다. 음성합성 생성 언어는 음조, 속도 음량 수정 기능을 제공하지만 TTS는 동적이기 때문에 복잡해집니다.

[3] Escalating Error: 사용자에게 어떤 정보가 필요한지 다시 상기시킵니다. 더 상세한 정보를 사용자에게 제공함으로써 문제를 해결합니다. 여러 번의 대화가 실패하는 경우 다른 방법을 제안하기도 합니다.

[4] 도널드 노먼(Donald Norman)은 인지과학의 대부이자, 〈비즈니스 위크〉가 선정한 ‘세계에서 가장 영향력 있는 디자이너’ 중 한 명입니다. UX(User Experience·사용자 경험) 디자인 개념과 인간 중심 디자인이라는 분야를 개척하고, 연구해온 심리학자이자 디자인 교육자로 세계적인 디자인 컨설팅 기업 ‘닐슨 노먼 그룹’의 공동설립자입니다.