자세히 보지 않으면 쉽게 지나칠 만큼 작은 글씨로 쓰여있지만, 이는 사실 대규모 언어 모델*을 사용할 때 가장 주의해야 하는 점이다. AI가 때로 사실이 아닌 정보를 그럴듯하게 꾸며내어 말하는 현상, LLM의 고질적인 문제인 할루시네이션 현상 때문이다. 심지어 고도화된 언어모델일수록 사용자의 믿음이나 기대에 일치하도록 답변하는 성향인 AI 아첨 문제까지 있다. 따라서 AI의 답변이 사실인지 아닌지 확인하기 위해서는 근거나 출처를 직접 확인해 봐야 한다.

*대규모 언어 모델(LLM, Large Language Model): 방대한 양의 데이터를 사전 학습하여 자연어 텍스트를 인식 및 생성할 수 있는 AI 모델

실제로 UX 실무자들과 AI 활용 워크숍을 진행했을 때, 참여자들이 가장 우려했던 점도 이와 관련된 문제였다. AI는 답변에 대한 근거 자료를 잘 제시하지 않는다. 실무에서 보고서를 작성하려면 출처를 명시해야 하는 만큼, 참여자들 역시 답변의 백데이터를 어디서 확인할 수 있냐는 질문을 많이 했다.

물론 최근에는 답변과 관련된 웹사이트 링크를 함께 알려주는 기능을 제공하지만, 이 또한 답변 내용이 링크 속 콘텐츠에 있다고 확신할 수는 없다. 여전히 AI가 결과물을 생성하기까지 내부 작동 과정은 불투명하다(AI 블랙박스 문제). 이차적으로 인간 사용자가 직접 검증하는 단계가 필요한 이유다. 챗GPT가 권고한 것처럼 ‘중요한 정보일수록 직접 확인’하는 작업을 거쳐야 한다.

UX 리서치 작업을 위한 AI 답변 검증 방법

1. 웹 검색 기능으로 답변 검증하기① 제미나이의 대답 재확인 기능

구글의 제미나이(Gemini)는 AI가 생성한 답변을 재확인할 수 있는 기능을 제공한다. 생성한 답변을 웹에 다시 검색해 일치하는 부분이 있는지 확인해 주는 기능이다.

기능은 답변 하단에 구글 아이콘을 클릭하면 실행할 수 있다. 결과로 초록색, 주황색 하이라이트로 표시가 나타난다.

초록색 하이라이트: Google 검색에서 Gemini의 대답과 유사한 다음의 콘텐츠를 찾았습니다. 링크가 제공되지만 Gemini 앱이 대답을 생성하는 데 사용한 링크는 아닐 수 있습니다.

주황색 하이라이트: Google 검색에서 대답과 다른 콘텐츠를 찾았거나, 관련 콘텐츠를 찾지 못했습니다. 가능한 경우 링크가 제공됩니다

강조 표시되지 않은 텍스트: 대답을 평가하기 위한 정보가 충분하지 않거나, 사실에 기반한 정보를 전달할 목적으로 제공되지 않았습니다. 현재 Gemini는 표 및 코드의 콘텐츠는 건너뜁니다.

<출처: 구글, 대답 재확인 기능 안내>

이러한 답변 재확인 결과를 바탕으로 중요한 정보는 다시 한번 확인해 볼 수 있다. 특히 주황색 하이라이트의 경우, 제미나이가 ‘더 자세히 조사하여 신뢰할 수 있는 대답인지 확인해 보세요.’라고 제안하는 만큼 해당 내용에 대한 심층적인 조사가 필요하다. 초록색 하이라이트는 출처 링크에 들어가서 내용을 살펴보며 사실 여부를 확인할 수 있다.

2. 웹 검색 기능으로 답변 검증하기② 오토 브라우징

오토 브라우징은 자동화를 뜻하는 오토(auto)와 인터넷을 검색해 정보를 찾아내는 일을 뜻하는 브라우징(browsing)이 합쳐진 단어다.

네이버의 클로바X는 오토 브라우징에 대해 이렇게 정의해 주었다.

사용자의 요청에 따라 어떤 프로세스로 탐색을 수행해야 할지 스스로 사고, 설계하고 이후 여러 단계의 브라우징을 자동으로 수행하며 필요한 정보를 수집하는 기술

또, ‘AI에 웹을 탐색하는 기능을 부여함으로써 최신 정보를 제공할 수 없었던 LLM의 한계를 극복할 수 있는 방안’이라고 추가로 설명했다.

오토 브라우징을 쓰는 방법은 간단하다. 프롬프트에 “검색해 보고 알려줘"라는 말을 추가하면 된다. 예로, 챗GPT에 ‘노트폴리오에 대해 검색해 보고 자세하게 알려줘.’라는 검색어를 입력해 봤다.

챗GPT는 명령어를 검색하는 과정을 순차적으로 보여준 후, 결과를 생성했다. 앞서 GPT 3.5 모델 기반 버전은 2021년 9월까지의 정보만을 학습했기 때문에, 최신 정보를 찾기엔 한계가 있었다. 또한 국내 서비스에 대한 정보가 부족해서 아는 척 거짓말로 대답하는 경우도 많았다. 그에 비해 최근 버전은 웹 검색으로 최신 정보는 물론 더욱 관련성이 높은 자료를 찾아 정리해 주고 있다.

챗GPT는 여기서 한 단계 더 나아가 서치GPT 기능도 업데이트했다. “검색해 보고 알려줘.”라는 프롬프트를 입력하는 대신, 작은 지구본 모양의 아이콘을 클릭하고 검색하고자 하는 키워드를 입력하면 웹 검색 결과 요약을 받아볼 수 있다.

주의: 출처 링크 확인하기

웹 검색으로 답변을 검증할 때 가장 중요한 것은, 직접 출처 링크에 접근해 답변의 내용이 진짜 포함되어 있는지 확인하는 작업이다. 제미나이가 초록색 하이라이트로 표시를 해주더라도 실제로 완벽하게 일치하는 내용인지는 직접 확인해 보지 않는 이상 알 수 없다. 구글 역시 ‘링크가 제공되지만, Gemini가 대답을 생성하는 데 사용한 링크는 아닐 수 있습니다.’라고 설명한다. 결국, 출처 링크에 들어가 내용을 확인하는 단계까지 실행해야 제대로 검증할 수 있다는 뜻이다.

웹 검색 기반으로 답변을 생성하는 경우도 마찬가지다. 빙(Bing) AI나 뤼튼 같은 도구의 경우, 답변에 대한 출처 링크를 제공하지만 막상 링크를 직접 확인해 보면 답변과 전혀 관련 없는 콘텐츠인 경우가 많았다.

반면 퍼플렉시티(perplexity)는 출처 목록이 모두 입력한 프롬프트와 연관성 높은 내용으로 구성되었다. 리서치 작업에 특화된 AI 도구로 잘 알려진 이유가 있었다.

하지만, 출처 링크에 접속해 내용을 확인해 보는 작업은 여전히 필요하다. 실제로는 일시적인 오류에 대한 내용이지만, ‘핵심 문제’라고 답변하는 등 명령 의도와 미묘하게 다른 부분이 들어 있을 수도 있다.

물론 ‘검색해 보고 알려줘’라고 명령어를 입력해 오토 브라우징을 활용했을 때도 출처 링크 확인이 필요하다. 네이버 클로바X 역시 ‘오토브라우징은 실시간으로 정보를 탐색할 수 있지만, 신뢰성 검증이 필요할 수 있습니다.’라며 부가 검증에 대한 필요성을 강조했다.

3. 원본 데이터를 다시 확인하기

어떠한 데이터를 토대로 답변을 생성해 달라고 요청했다면, 웹 검색과 비슷한 방법으로 이를 검증할 수 있다. 사전에 인터뷰한 자료를 첨부하고 분석해 달라고 요청한 사례를 예로 살펴보자.

인터뷰 내용을 토대로 AI는 ‘단계별 안내 부족’이 사용자의 페인 포인트라며 답변했다.

이때, 원본 데이터에서 키워드를 검색해 실제 저 내용이 원본 데이터에 포함되어 있는지, 챗GPT의 분석과 동일한 맥락으로 내용이 전개되고 있는지 검증해 볼 수 있다.

이처럼 원본 데이터 검증을 다시 진행함으로써 출처에 대한 신뢰성을 확보함과 동시에 더 확실한 결과를 얻을 수 있다.

4. 인공지능 집단 지성 활용하기

집단 지성(collective intelligence)은 한 개인의 지적 능력이 아니라 집단의 지적 능력이 상호 결합하여 더 큰 능력을 발휘하는 현상을 의미한다.* AI가 점차 발전함에 따라 인간과 인간 사이의 협업뿐만 아니라 인간과 AI의 협업으로도 그 관계가 확장되고 있다. 나아가 이제는 AI와 AI 사이의 협업 관계도 기대해 볼 수 있다.

*출처: 스마일게이트 AI, AI와 인간의 협업: 새로운 집단 지성

이를테면 여러 AI 도구에 동일한 프롬프트를 입력하고, 답변을 확인해 볼 수 있을 것이다.

왼쪽 위부터 시계방향으로 챗GPT(1), 챗GPT(2), 제미나이, 클로드 <출처: 작가, 각 서비스 캡처>

챗GPT와 제미나이, 클로드에 넷플릭스 모바일 앱을 사용하는 사용자의 페인 포인트가 무엇인지 묻는 질문을 각각 입력해 봤다. 답변을 비교해 보니, 세 가지 AI가 모두 제한된 개인화 옵션, 사용자 맞춤 구성의 한계를 언급했다.

각자 조금씩 다른 톤으로 이야기하고 있지만, 결국 같은 문제를 지적하고 있다. 이렇게 답변을 비교하다 보면 여러 가지 문제 가운데 어떤 문제가 두드러지는지 확인해 볼 수도 있다. 즉, 여러 AI가 협력해 집단적 능력을 발휘하는 인공지능 집단 지성으로 답변을 체크하는 것이다.

물론 이 방법은 답변의 ‘사실 여부’를 검증하는 것과는 결이 조금 다르다. 그보다는 여러 AI의 답변을 비교하여 자주 언급되는 내용이 무엇인지 확인하고, 리서치의 방향성을 좁혀갈 하나의 접근 방식이라고 할 수 있다.

이는 실제 UX 실무자 워크숍에서도 효과적인 방법이었다. 참가자들은 이처럼 여러 문제가 한 번에 제시되면 어디에 초점을 맞춰 살펴봐야 할지 혼란스러워했다. 그때, 여러 AI의 답변을 비교해 봄으로써 리서치 방향성을 정하는 의사 결정에 도움을 받을 수 있었다.

마치며: 할루시네이션의 위험성을 높이는 인간의 게으름

지금까지 도구별, 상황별로 실행할 수 있는 여러 답변 검증 방법을 정리해 봤다. 리서치의 종류, 결과물의 종류에 따라 적합한 답변 검증 방법은 달라질 수 있다.

UX 리서치 단계에서 필요한 검증 방법이라고 했지만, 이는 사실 AI를 활용한 모든 리서치 과정에서 필요한 작업이다. 결국 가장 중요한 건 생성된 결과물을 무조건적으로 믿지 않고 의심하는 태도다.

미국의 범죄 전문가 브렌트 터베이 박사는 AI를 활용한 범죄 분석에 관해 이야기하며, 할루시네이션의 위험성(부정적인 영향력)을 높이는 건 AI의 미완전함이 아니라 인간의 게으름과 부주의함이라고 경고했다. 그는 AI가 거짓 판례를 만든 사건에 대해 “많은 사람이 AI를 이용해서 만든 결과물을 꼼꼼히 읽어본 뒤 제대로 검토하지도 않고 그대로 사용하는 과정에서 발생하는 촌극”이며 “생성형 AI에 모든 걸 위탁하고, 답변을 읽지도 않는 게으름에서 파생된 현상이다.”라고 말했다. 무조건적인 AI 결과물 수용에 대해 강력하게 비판한 것이다.

AI 활용의 목적은 완전 자동화가 아닌 작업의 효율성을 올리는 것이다. 어떤 방법으로든 생성된 결과물을 이차 검증하는 단계를 거쳐야 할루시네이션이나 AI 아첨 등의 문제를 완화할 수 있다. AI가 생성한 결과물을 어떠한 검증도 없이 수용하고 사용한다면, 그 위험성과 부정적인 결과를 고려해 볼 때, AI를 활용하지 않는 것보다 더 비효율적인 상황에 맞닥뜨릴 수 있다는 것을 상기해야 한다.