왜 AI 금융 챗봇은 엉뚱한 답변만 하는 걸까?

① AI는 파괴자일까, 조력자일까?
② “AI야, 내 얼굴에 윈터의 코가 붙으면 어떨까?”
③ 꾸준히 성장하는 AI 제품은 어떻게 만들까?
④ 나만의 AI ‘디자인 인턴’과 일하기
⑤ AI 비즈니스 도입을 위한 실용적인 5단계 접근법
⑥ 10년째 투자자가 말하는 AI로 ‘커뮤니케이션 간격’ 줄이기
⑦ 왜 AI 금융 챗봇은 엉뚱한 답변만 하는 걸까?

최근에 한 언론에서 ‘뺑뺑이 AI콜센터’라는 기획 기사를 본 적이 있습니다. 고객센터에 전화하면 인내심의 한계에 도달할 때쯤 상담사와 연결되거나, 기다림에 지쳐 챗봇에 물어봤자 이내 엉뚱한 답변이 돌아온다는 내용이었습니다. 은행이나 카드 앱에서 챗봇에게 “문의한 내용을 찾을 수 없어요.”라는 답변을 받아봤다면 여러분도 충분히 공감하실 거라고 생각합니다.

저는 카드사에서 ‘AI 콜센터’를 구축하고 AI 챗봇 서비스를 운영하고 있습니다. 앞서 말한 사례처럼 챗봇이 가끔 고객의 요구에 맞지 않는 답변을 줄 때 아쉬움을 느끼지만, AI 챗봇이 가져온 긍정적인 변화 역시 현장에서 마주하고 있습니다. 이를테면 예전에는 상담 직원만이 처리할 수 있던 소득공제 서류 발송 같은 단순 업무를 이제는 챗봇이 24시간 처리하니, 상담 직원들은 더 복잡한 상담에 집중할 수 있습니다.

이처럼 편리한 일도 많은데 왜 ‘뺑뺑이 AI콜센터’라는 말이 나온 걸까요? 현직 AI 챗봇 서비스 기획자의 입장에서 현재 금융 AI 챗봇의 한계를 짚어보겠습니다. 또, 앞으로의 챗봇이 ‘뺑뺑이 AI콜센터 직원’에서 ‘똑똑한 금융 비서’로 탈바꿈하기 위해 기획자가 놓쳐서는 안 될 UX 요소에 대해 이야기하고자 합니다.

AI 금융 상담 챗봇의 현재와 가까운 미래

현주소: 왜 챗GPT는 잘 알아듣는데, AI 상담 챗봇은 못 알아듣지?

왜 챗GPT(ChatGPT)는 다시 찾고 싶은데, AI 상담 챗봇은 불편한 걸까요? 두 서비스에서 AI가 작동하는 방식이 조금 다르기 때문입니다. 특히 고객의 의도 파악과 챗봇 답변 관리 방식에 차이가 있습니다. 상담 챗봇에서 AI는 딥러닝을 기반으로 자연어를 이해하고, 고객의 의도(intent)를 분류하는 역할만을 합니다. 예를 들어, A 고객이 “카드값 결제”라고 묻거나 B 고객이 “카드 결제금액 낼게요”라고 말하면, 챗봇의 AI는 두 질문 모두 ‘카드값 결제’로 이해합니다. 반면, “이용내역 알려줘”는 다른 의도로 분류합니다.

하지만 이렇게 ‘카드값 결제’ 같은 의도를 챗봇이 분류하도록 만드는 일은 운영자의 담당입니다. 즉, 운영자는 “카드값 결제”, “카드 결제금액 낼게요”라는 문장을 ‘카드값 결제’라는 의도로 인식하도록 챗봇을 학습시키는 일을 합니다. 그러니 고객이 운영자가 학습시키지 않은 의도에 대해 질문하면 AI는 학습된 의도 중 가장 유사한 것으로 파악하거나, 아예 못 알아듣고 “문의한 내용을 찾을 수 없어요”라고 답하게 됩니다.

또한, 의도를 정확하게 파악했더라도 챗봇은 운영자가 미리 준비한 것만 답변합니다. 만약 준비된 답변이 없다면 “문의한 내용을 찾을 수 없어요.” 같은 답답한 답변을 내놓고, 결국 상담사 연결로 이어지게 됩니다. 저는 운영자로서 새로운 상품이 출시되거나 약관이 변경될 때마다 새로운 의도를 학습시키고 답변을 업데이트합니다. 하지만 고객이 원하는 다양한 상황에 제대로 답변하지 못하는 챗봇을 볼 때마다 마치 밑 빠진 독에 물을 붓는 기분이 들기도 합니다.

가까운 미래① 생성형 AI로 복잡한 카드 혜택도 답변 OK!

최근 등장한 LLM 기반의 생성형 AI는 마치 그 독을 채울 수 있는 해결책으로 느껴졌습니다. LLM은 단순히 키워드나 정해진 패턴을 학습하는 것이 아니라, 방대한 양의 데이터를 바탕으로 학습되지 않은 의도나 미묘한 뉘앙스도 파악할 수 있기 때문입니다. 자연스레 고객이 던지는 복잡하고 까다로운 질문에도 유연하게 대화를 이어갈 수 있습니다.

게다가 생성형 AI는 기존 데이터를 바탕으로 새로운 콘텐츠를 생성하는 기술이기도 합니다. 따라서 카드 상품이나 약관 같은 상담 지식을 기반으로 스스로 답변을 생성할 수 있죠. 이 덕분에 답변의 폭도 넓어집니다. 예를 들어, 운영자가 별도로 의도를 학습시키거나 답변을 준비하지 않았더라도, “이번에 새로 나온 카드 라운지 이벤트 뭐야”라는 질문에 AI가 상담 지식 데이터베이스에서 적합한 답을 찾아줄 수 있습니다.

다만, LLM이 만능열쇠는 아닙니다. 광범위한 질문에는 대응할 수 있지만, 할루시네이션 발생 가능성이 있고, 최신 정보를 반영하지 못해 부정확한 답변이 나올 위험이 있습니다. 그래서 금융권에서는 정확도와 신뢰성을 높이기 위해 RAG(Retrieval-Augmented Generation, 지식 검색 증강) 방식을 적극 활용하고 있습니다. RAG는 LLM이 답변을 생성하기 전에 회사 상담 지식 데이터베이스에서 실시간으로 관련된 정보를 검색해 답변을 생성하도록 합니다. 그런 만큼 최신 정보와 정확한 사실을 기반으로 답변할 수 있습니다.

가까운 미래② 쌍방향 소통이 가능한 맞춤형 금융 상담

이제 금융 챗봇은 단순 상담을 넘어서, 고객이 원하는 걸 바로 알아듣고 쌍방향으로 소통할 수 있는 금융 비서로 역할을 확장할 것입니다.

2019년부터 시작된 마이데이터 사업으로 여러 금융사에 흩어진 약 720개의 금융 정보를 한눈에 조회할 수 있게 되었습니다. 덕분에 “오늘까지 111만 원 썼어요. 이번 달엔 313만 원 쓸 것 같아요.”처럼 마이데이터를 기반으로 맞춤형 제안을 해주는 서비스가 등장했습니다. 여기에 LLM을 더하면 외부 지식을 결합해 더 자세한 정보를 주거나, 대화를 통해 실시간으로 맞춤형 제안을 해주는 훨씬 똑똑한 금융 서비스가 될 수 있을 것입니다.

예를 들어, 기존의 맞춤형 제안은 고객의 카드 결제 정보를 바탕으로 맥락을 파악할 수 있습니다. ‘점심에 명동 근처 식당을 자주 간다’는 결제 정보로 기반으로 아래와 같은 제안을 만듭니다.

“오늘까지 111만 원 썼어요. 이번 달엔 313만 원 쓸 것 같아요. 민경 님이 점심에 자주 가는 명동 근처 식당 중 할인 이벤트를 하는 곳을 안내해 드릴게요.”

여기에 LLM을 활용하면 외부 지식을 활용하여 더 실시간 상황에 기반한 제안이 가능해질 것입니다. 예를 들어, “지난달 대비 물가가 1.5% 정도 오르면서, 비슷한 소득인 또래의 외식비 지출이 5% 정도 늘었대요.”와 같은 정보를 바탕으로 할인 중인 식당을 제안할 수 있습니다. 할인 중인 식당을 안내하는 이유를 제시해 신뢰를 높이는 방식입니다.

또한, 고객과의 대화를 통해 실시간으로 맞춤형 제안을 더하는 것도 가능해 질 것입니다. 예를 들어, 고객이 점심 외식을 줄이기보다는 저녁에 집밥을 해 비용을 줄이고 싶다면, 이에 맞는 일주일 식단과 재료를 구매할 수 있는 링크를 제공할 수도 있습니다.

아직은 넘어야 할 산이 있어요: 망분리 규제와 개인정보 활용

물론 아직 금융 챗봇이 챗GPT처럼 답하지 못하는 또 다른 이유가 있습니다. 앞서 설명한 시나리오를 구현하려면 넘어야 할 산이 있기 때문입니다. 그 산은 대표적으로 2가지, 망분리 규제와 개인 정보 활용입니다.

현재 국내 금융 기업은 망분리 정책 때문에 내부 업무 시스템과 인터넷 사용이 가능한 외부 통신망을 분리해야 합니다. 그리고 가명 정보를 포함한 개인신용정보나 고유식별정보를 해외 서버로 보낼 수 없고 오직 국내 서버에서만 처리할 수 있습니다. 문제는 대부분의 생성형 AI가 인터넷 기반으로 작동하고, 클라우드 환경에서 해외 서버를 많이 이용한다는 점입니다. 이 때문에 금융권에서는 온프레미스(On-premise) 방식이나 프라이빗 클라우드(Private Cloud) 기반의 LLM을 제한적으로 사용하고 있습니다.

게다가 마이데이터도 한계가 있습니다. 예를 들어, 제공 기관 제휴 문제로 금융 자산이나 부채 정보 일부가 조회되지 않는 문제가 있어, 이 데이터를 기반으로 한 맞춤형 제안이 부정확할 수 있다는 점입니다.

비록 이런 한계들이 있지만, 금융 챗봇은 꾸준히 나아가고 있습니다. 기술 발전과 함께 규제도 서서히 완화되고 있고, 정보의 정확성을 높이기 위한 기술로 산을 하나씩 넘어가고 있습니다.

지난 8월, 금융위원회는 기존 망분리 규제를 개선하고, 금융 보안에 관한 패러다임을 바꾸기 위해 ‘금융분야 망분리 개선 로드맵’을 발표했습니다. 이 로드맵에 따르면 금융당국은 단계적으로 망분리 규제를 개선할 예정입니다. 또한, 규제 샌드박스를 통해 생성형 AI가 가명정보까지 처리할 수 있도록 특례를 허용하기도 했습니다.

마이데이터의 한계도 개선되고 있습니다. 지난 4월 발표된 마이데이터 2.0 추진 방안에 따르면 앞으로 마이데이터 서비스에서도 숨은 예금/보험금도 조회할 수 있습니다. 앞으로는 공공 마이데이터(예: 교통법규 위반 내역)까지 여기에 연계할 예정입니다.

결국, 우리가 집중해야 하는 것은 ‘신뢰 쌓기’

규제가 완화되고 생성형 AI의 활용도가 높아지면 그와 함께 더 나은 금융 비서를 만들기 위한 노력이 이어질 것입니다. 이때 ‘더 나은’ 금융 비서를 위해 기획자가 놓치지 말아야 할 것은 무엇일까요? 저는 ‘신뢰’라고 생각합니다.

금융 챗봇은 민감한 개인 정보를 다룹니다. 그러다 보니 생성형 AI가 예상치 못한 방식으로 부정확한 정보를 제공하면 기업의 신뢰도가 한순간에 무너질 수 있습니다. 그래서 정확한 답변 제공을 위한 기술(예:RAG)을 적극 활용하는 것도 중요하지만, 그보다 더 중요한 건 사용자가 신뢰할 수 있는 UX를 설계하는 일입니다.

얼마 전, 우리은행 앱에서 적금 만료로 돈을 재예치하려고 ‘예⠂적금 상담을 해주는 AI 은행원(이하 AI뱅커)’를 사용해 보았습니다. 기사를 찾아보니 생성형 AI 기반으로 만들어진 챗봇이라 해 신기한 마음에 상담을 진행해 봤습니다. 그러나 상담을 마친 다음, 결국 재예치는 직접 찾아보고 처리했습니다. AI뱅커가 추천한 상품이 최적의 상품이라는 신뢰가 생기지 않았기 때문입니다.

왜 저는 AI뱅커의 추천을 신뢰할 수 없었을까요? Google AI 가이드북에서 제시하는 인간 중심의 AI 설계 요소를 바탕으로 AI 뱅커 UX를 분석하고, 신뢰할 수 있는 대화를 만들기 위해 어떤 부분을 고려해야 할지 이야기해 보겠습니다.

Explainability+Trust : 왜 이 상품이 나한테 최적의 상품인 거야?

Google AI 가이드북에 따르면 AI 시스템은 사용자에게 어떤 데이터를 근거로 제안했는지 구체적인 이유를 제공해야 추천에 대한 신뢰도를 높일 수 있습니다. 하지만 AI뱅커는 왜 추천하는 적금이 나에게 가장 적합한지를 설명하지 않았습니다. 결국 제가 직접 적금 상세 페이지에 들어가서 이유를 확인해야 했습니다. 만약, 내가 예치하고자 하는 금액, 기간, 조건 등을 기반으로 다음 그림과 같이 설명해 준다면 훨씬 설득력 있는 제안이 될 것입니다.

그림 8. 신뢰감을 형성하기 위한 대화 UX 요소: Explainability+Trust <AS-IS 이미지 출처: 우리은행 AI 뱅커>

Feedback+Control : 공감과 선택지를 제공하기

물론 아쉬운 UX만 있었던 건 아닙니다. AI 시스템이 사용자의 행동에 즉각적으로 반응하는 피드백을 제공하는 것은 아주 중요합니다. 사람과의 대화에서 ‘공감’이 중요한 것처럼 말입니다. AI뱅커는 이점은 충분히 반영하고 있었습니다. 특히 제가 “내 우대 조건이 맞는 거야?”라고 물었을 때, “고객님께서 현재 받고 계신 우대 조건에 대해 확인하시는 것으로 이해했습니다.”라고 의도를 파악했다는 피드백을 준 점이 좋았습니다. 만약 이런 의도 파악 없이 답변이 나왔다면 챗봇이 내가 말한 걸 제대로 이해한 건지, 아니면 우연히 맞은 건지 모호했을 것입니다.

그림 9. 신뢰감을 형성하기 위한 대화 UX 요소: Feedback <출처: 우리은행 AI뱅커>

한편 이러한 ‘공감’ 맥락에서 AI가 모든 일을 자동화하는 게 꼭 좋은 건 아닙니다. 사람들은 전체 프로세스를 자동화하는 대신, 통제권을 갖고 싶어 합니다. AI뱅커가 단 1개의 상품만 추천했을 때, 중요한 결정을 AI에만 맡기기에는 이 시스템에 대한 제 신뢰가 부족했습니다. 결국, 직접 상품을 비교하는 방법을 택했습니다. 만약 2~3개의 비교 상품을 제공하면서 저에게 선택권을 줬다면, AI에 대한 신뢰도가 더 높아졌을 것입니다. 예를 들어, 기본 금리가 낮더라도 우대 금리 혜택이 높은 상품이나, 예치 금액을 높이면 더 높은 금리를 주는 상품을 옵션으로 제공했다면 그중에서 제가 비교해 보고 결정할 수 있었을 것입니다.

그림 10. 신뢰감을 형성하기 위한 대화 UX 요소: Control <출처: 작가>

마치며

이 글을 쓰면서 챗봇이 단순한 ‘뺑뺑이 AI콜센터 직원’에서 벗어나 진정한 금융 비서로 발전할 가능성을 다시금 생각해 보게 되었습니다. 지난 3년간 챗봇을 운영하며 어느 정도 성과는 거뒀지만, 여전히 답답해하는 고객들의 챗봇 상담 로그를 볼 때면 죄송한 마음이 들기도 했습니다.

하지만 망분리 정책이 그러하듯이 규제는 서서히 완화되고 있습니다. 개인정보 활용, 답변의 정확도 등의 문제가 해결된다면 생성형 AI는 금융 경험을 바꿀 수 있는 중요한 열쇠가 될 것입니다. KB국민카드의 이벤트 AI나 우리은행의 AI뱅커처럼 특정 상담 영역에서 PoC를 진행하는 은행들이 보입니다. 곧 ‘이벤트 정보’, ‘예적금 상품’ 등 특정 영역에 한정하여 상담을 제공하는 것을 넘어 점차 상담 영역이 확대되는 것도 머지 않았다고 생각합니다.

금융 서비스에서 규제 특례를 적용하려면 ‘혁신금융서비스’로 인정받아야 합니다. 이 서비스의 주요 평가 기준 중 하나는 ‘금융 소비자의 편익’입니다. 그만큼 우리가 집중해야 할 건 고객의 페인 포인트를 찾아내는 일입니다. 또한 기획자로서 정확한 답변을 제공하는 방법을 끊임없이 고민하며 RAG 같은 기술을 적극 검토하는 것, 백오피스에서 다양한 실험을 통해 신뢰할 수 있는 UX를 설계하는 것 역시 중요한 일입니다. 이러한 모든 노력이 모여야 금융 챗봇이 단순 상담 봇을 넘어 진정한 금융비서로서 자리매김할 수 있을 것입니다.

‘일’상의 AI 시리즈

① AI는 파괴자일까, 조력자일까?
② “AI야, 내 얼굴에 윈터의 코가 붙으면 어떨까?”
③ 꾸준히 성장하는 AI 제품은 어떻게 만들까?
④ 나만의 AI ‘디자인 인턴’과 일하기
⑤ AI 비즈니스 도입을 위한 실용적인 5단계 접근법
⑥ 10년째 투자자가 말하는 AI로 ‘커뮤니케이션 간격’ 줄이기
⑦ 왜 AI 금융 챗봇은 엉뚱한 답변만 하는 걸까?

[위시켓 AI 컨설팅 무료 이벤트]

요즘IT 독자들을 위해 준비했어요. 챗봇/데이터 자동화/업무 효율화 등 AI 도입을 고민하고 있다면 위시켓의 AI 컨설팅을 무료로 신청해 보세요. 문제 상황 정의부터 성과 추적, 솔루션 구축까지 한 번에 제안 드립니다.