
얼마 전, SNS 계정을 키우겠다며 매일 포스트를 올리던 친구에게 조심스럽게 피드백을 남긴 적이 있습니다. “챗GPT 쓴 티 좀 덜 내면 안 되겠어?”라고 말이죠. 챗GPT 같은 대화형 LLM이 상용화된 이후, 곳곳에서 ‘AI가 쓴 듯한 글’이 보입니다. SNS와 이메일도 마찬가지입니다.
AI가 만든 이미지는 점점 현실과 구분하기 어려워지고, 텍스트 역시 점점 더 사람이 쓴 글처럼 바뀌는 요즘, 우리는 과연 AI가 쓴 글을 알아볼 수 있을까요? 또, 이렇게 AI가 만들어낸 글들이 우리의 사고와 소통 방식에는 어떤 영향을 미칠까요? 오늘은 독일과 미국에서 진행된 연구를 통해 이 두 가지 문제에 대한 답을 찾아보려 합니다.
AI의 언어가 인간에게 미치는 영향은 어디까지 확장되고 있을까요?
독일의 막스 플랑크 인간발달연구소는 챗GPT가 인간의 언어 습관에 어떤 영향을 주는지 추적했습니다. 지금까지 대부분의 연구는 문서 같은 서면 텍스트에 머물러 있었는데, 이번 연구는 유튜브 영상을 바탕으로 실제 발화(말하기)에 기반한 변화를 관찰했습니다. 연구진은 그 결과, 챗GPT 출시 이후 18개월 동안 유튜브 학술 채널에서 AI가 선호하는 단어들이 최대 51%까지 늘어났다고 주장했습니다.
연구진은 총 740,249시간 분량의 영어 구어 데이터를 분석했습니다. 데이터는 유튜브 학술 발표 영상 360,445개와 팟캐스트 에피소드 771,591개에 기반한 전체 7억 3,500만 단어 규모의 전사본입니다.
그들이 학술 발표 영상과 팟캐스트를 선택한 데에는 이유가 있습니다. 연구진은 GPT가 선호하는 단어들이 일정한 방향성과 구조를 갖고 확산된다고 보았습니다. 단어의 확산은 단순한 우연이 아니라, 말하기의 사회적 맥락과 매체 성격에 따라 달라진다는 뜻이지요.
연구진은 가장 대표적인 확산 경로로 학술 발표 같은 ‘강연 형태 콘텐츠’와 팟캐스트 같은 ‘대화형 콘텐츠’, 이렇게 두 가지를 선정했습니다. 두 콘텐츠를 각각 ‘단어 채택’, ‘단어 확산’ 단계를 보여줄 콘텐츠로 삼은 것이죠. 이유를 살펴볼까요?
단어 채택과 강연 형태 콘텐츠
단어 확산과 대화형 콘텐츠
이들 데이터를 바탕으로 연구진은 먼저 챗GPT가 어떤 단어를 ‘좋아하는지’ 밝히는 것부터 시작했습니다. 챗GPT가 사람보다 더 자주 사용하는 단어를 식별한 다음, 실제 인간 언어에서 그 단어들의 사용이 늘어났는지를 추적하려는 목적이었습니다.
이를 위해 연구진은 여러 분야에서 사람이 직접 작성한 텍스트를 준비하고, 챗GPT에게 ‘문장을 개선해 줘’, ‘좀 더 명확하게 써 줘’, ‘표현을 다듬어 줘’와 같은 프롬프트를 던져 편집본을 만들었습니다. 이후 두 가지 버전, 원본과 AI 편집본을 비교해 어떤 단어가 챗GPT에 의해 더 자주 삽입되는지를 계산했죠. 이 계산에는 Log-Odds Ratio라는 통계 기법을 썼는데, 챗GPT가 사람보다 특정 단어를 더 선호할수록 높은 ‘GPT 점수’를 갖도록 한 것이지요.
아래는 그렇게 추출한 GPT 점수가 높았던 단어들입니다. delve(깊이 파고들다), underscore(강조하다), comprehend(이해하다), bolster(강화하다), boast(자랑하다) 등이 상위권에 있습니다.
챗GPT가 선호하는 단어들을 알아냈으니, 챗GPT 출시 이후 실제로 사람들이 그 단어들을 사용하는 빈도가 늘었는지 확인할 차례입니다.
하지만 단순히 사용 빈도를 시계열로 비교하는 방식은 적절하지 않습니다. 특정 단어의 활용이 늘었다고 해서, 그것이 챗GPT 때문이라고 단정할 수는 없기 때문입니다. 그래서 연구진은 Synthetic Control Method라는 인과 추론 기법을 적용했습니다. ‘챗GPT가 없었다면 이 단어는 어떻게 변했을까?’라는 가정으로, 이에 해당하는 가상의 대조군을 수학적으로 구성하는 방식입니다.
예를 들어, ‘정보를 깊이 파고든다’는 의미의 delve는 GPT 점수가 매우 높은 단어입니다. 연구진은 이제 GPT의 영향이 거의 없는 단어 가운데, 과거 delve와 유사한 사용 패턴을 보인 단어들을 조합해 가상의 비교 그룹을 만듭니다. 이후 이 대조군과 실제 delve의 사용 변화량을 비교하면, 챗GPT의 영향을 인과적으로 추정할 수 있다는 것이지요.
이제, 연구 결과는 어떻게 나왔을까요?
연구진은 챗GPT 출시 이후, GPT가 선호하는 상위 20개 단어들이 평균적으로 연간 25~50% 사용 빈도가 늘어난 것을 확인했습니다. 특히 GPT 점수가 높았던 delve는 학술 발표 영상에서 p-value 0.010을 기록했습니다. (보통 p-value가 0.050보다 작으면 통계적으로 유의미하다고 해석합니다.) 이는 delve의 사용 증가가 우연히 일어날 확률이 1%라는 뜻으로, 챗GPT가 해당 단어 확산에 실제로 기여했음을 보여줍니다.
즉, 챗GPT 출시로 사람들이 말할 때 쓰는 언어가 실제로 변하고 있으며, 우리가 무의식적으로 AI가 선호하는 표현을 받아들이고 있다는 사실을 증명한 것입니다.
지금까지 AI가 자주 쓰는 단어들이 인간의 언어 습관에 어떤 영향을 미치는지를 살펴봤습니다. 그렇다면, AI가 제안한 문장을 실제 대화에서 사용했을 때, 사람 간 관계 형성에는 어떤 영향을 주는지 알아볼까요?
미국 코넬대학교를 비롯한 연구팀은 AI의 응답이 대화 속도, 감정, 그리고 신뢰 형성에 어떤 영향을 끼치는지 연구했습니다. 그들은 Moshi라는 실험용 커뮤니케이션 앱을 직접 만들어 실험을 진행했는데요. 이때 모든 참가자는 처음 보는 사람과 1:1 채팅을 해야 했고, 일부 조건에서는 Google Smart Reply API 기반의 AI 자동 문장 제안 기능을 사용할 수 있었습니다.
실험 조건
연구진은 메시지 수와 대화 시간을 기준으로 대화가 얼마나 빨리 진행되는지, 긍정적인 언어는 얼마나 나오는지, 대화를 마치고 난 후 상대방에 대한 인식(협력, 친밀함, 지배적인 성향 등)을 수치화했습니다.
그 결과, 스마트 답변을 사용하면 대화 속도가 평균 10.2% 더 빨라지며, 상대방을 더 친밀하고 협력적인 사람으로 느끼는 경향이 나타났습니다. 특히 AI가 개입한 문장을 많이 쓴 상대일수록 더 협력적이고 친밀하다는 인상을 받았죠. 하지만 역설적으로, 상대가 스마트 답변을 쓴 것 같다고 느끼는 순간 평가는 갑자기 나빠졌습니다. 그때부터는 협력성과 친밀성은 낮게, 지배성은 높게 평가되는 결과가 나타났습니다.
첫 번째 실험에서 연구진은 스마트 답변을 사용하면 대화가 긍정적으로 흘러가는 비중이 높아진다는 결과를 얻었습니다. 단순히 AI가 긍정적인 문장을 제안했기 때문일까요? 이를 확인하기 위해 두 번째 실험은 AI가 제안하는 스마트 응답 문장의 감정 편향에 초점을 맞췄습니다.
실험 그룹과 응답 도구
두 번째 실험을 위해 연구진은 총 582명의 참가자를 네 개의 조건 그룹에 무작위로 배정했습니다. 각 그룹에는 조건에 따라 다른 형태의 스마트 응답이 제공되었습니다. 사용자는 AI가 제안한 문장을 그대로 선택해도 되고, 무시하고 직접 작성해도 됩니다.
연구진은 이 조건 아래 그룹별 참가자들이 실제 대화에서 사용한 언어가 정서적으로 어떻게 달라졌는지 확인하기 위해 두 가지 분석 도구를 사용했습니다.
결과는 어땠을까요?
실험 결과는 분명했습니다. 긍정적인 스마트 응답을 제안받은 그룹은 대화 전체 톤이 긍정적으로 기울었고, 부정적인 스마트 응답을 제안받은 그룹은 대화가 한층 더 부정적인 방향으로 흘렀습니다.
흥미로운 점은 사용자가 단순히 제안된 응답을 보기만 할 때는 별다른 변화가 없었다는 사실입니다. 그러나 실제로 그 응답을 선택해 사용하면, 나머지 대화도 선택한 응답의 정서를 따라가는 현상이 나타났습니다. 마치 옆에서 부추기면 없던 감정도 생기고, 이미 있던 감정은 배로 커지는 것처럼, AI가 제안한 응답을 접한 인간은 무의식적으로 그 감정에 휘둘리는 걸까요?
글을 쓰다 보니 초행길에는 그저 내비게이션을 따라가기 보다 꼭 지도를 한 번 훑어보던 아버지가 떠오릅니다. 이유를 여쭤보면 늘 같은 답이 돌아왔습니다.
“그래도 어디로 어떻게 가는지는 파악하고 있어야지.”
그 덕분인지 아버지는 내비게이션이 없어도 크게 동요하지 않고 길을 찾아냈지만, 저는 늘 가던 길도 내비게이션이 없으면 불안해지고는 합니다.
오늘 살펴본 두 연구는 사람들이 AI가 선호하는 단어를 점점 더 자주 사용하며, 또 AI가 제안하는 감정에 따라가고 있음을 보여줍니다. 이는 무의식적으로 AI를 수용하는 우리의 모습을 생각하게 합니다. 물론 이러한 내비게이션에 의존하는 것이 무조건 나쁘다고 답할 수는 없습니다. 선택의 문제니까요. 그러나 AI가 단순한 정보 제공을 넘어, 우리가 쓰는 말과 느끼는 감정, 그리고 맺는 관계에까지 영향을 미친다면 이야기는 달라집니다.
이제 우리도 조금은 능동적인 태도로, 한 번쯤은 지도를 직접 확인해야 하지 않을까요?
참고 자료
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.