<p style="text-align:justify;">인공지능(AI)의 대중화가 빠르게 진행되면서 여러 논란이 뜨겁다. 인공지능 ‘데이터 학습’에 대한 문제도 그중 하나다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">양질의 데이터는 AI의 성능과 신뢰성을 담보하는 필수 조건이다. 그러나 AI가 학습한 데이터들이 적절한 절차를 거쳐 습득한 것인지 확실하지 않다는 부분이 논점이다. 예술, 언론 분야를 중심으로 많은 기업, 단체는 AI가 무단으로 콘텐츠를 수집하고 학습했다며 소송을 제기하고 있다. 그뿐만 아니라 개인이 블로그, 카페 등에 작성한 게시글의 저작권에 대해서도 아직 명확한 결론이 나지 않았다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">AI 시장은 아직 초기 단계이고, 늘 그렇듯 기술이 먼저 등장하고 제도가 뒤따른다. AI의 학습 데이터를 둘러싼 법적 분쟁이 더욱 뜨거운 이유다.</p><div class="page-break" style="page-break-after:always;"><span style="display:none;"> </span></div><h3 style="text-align:justify;"><strong>소송은 계속, 결론은 아직</strong></h3><p style="text-align:justify;">2023년 1월, 일러스트레이터 사라 앤더슨(Sarah Andersen)을 비롯한 세 명의 예술가가 미드저니, 스태빌리티AI, 디비언트아트를 대상으로 저작권 침해 소송을 제기했다. AI 학습과 저작권에 대한 첫 소송이었다. 같은 해 10월 소송은 기각되었으나, AI 기업의 명백한 승리라고 보기는 어려웠다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">기각의 주원인 중 하나는 두 명의 원고가 작품의 저작권을 저작권청에 신고하지 않았다는 점이었다. 법원은 원고 측에 저작권이 침해된 이미지를 구체적으로 인용하는 등 소장을 수정해 다시 소송을 제기할 것을 권고했으며, 지난해에는 AI 기업에 대한 조사 진행을 허용하기에 이르렀다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">스태빌리티 AI-게티이미지, 수노-미국 레코드산업협회, 오픈AI-뉴욕타임스 사례를 포함해 AI의 학습과 관련된 수많은 저작권 침해 및 손해배상 청구 소송이 진행되고 있다. 우리나라에서도 네이버의 AI 학습을 두고 지상파 3사가 소송을 제기하고, 한국신문협회가 공정위에 제소했다는 소식이 들렸다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">아직 명확한 결론은 나지 않았다. 기존의 저작권 침해 소송과 달리 원고가 실질적 유사성과 저작권 침해를 입증하기 어려울뿐더러, 뚜렷한 판례도 없기 때문이다. 저작권 관련 단체는 학습 데이터 공개 의무화를 주장하고, AI 기업은 이에 반대하고 있다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">다만 AI 학습을 위한 데이터 수집이 저작권법 예외 사례인 공정 이용(fair use)<span style="color:#757575;">*</span>에 허용되지 않는다는, 즉 저작권법 침해에 해당한다는 판결(로이터-로스 인텔리전스 소송)이 미국에서 나왔다. 이를 기점으로 AI와 저작권법을 둘러싼 쟁점은 조금씩 정리되는 중으로 보인다.</p><p style="text-align:justify;"><span style="color:#757575;">*미국 연방저작권법 제107조는 저작물의 공정 이용 여부를 판단하는 요소로 1) 이용 목적 및 특성(영리∙비영리 여부 포함) , 2) 저작물의 성격, 3) 이용된 부분이 전체 저작물에서 차지하는 비중과 그 중요성, 4) 저작물의 이용이 해당 저작물의 잠재적 시장이나 가치에 미치는 영향 등 네 가지를 규정하고 있다.</span></p><p style="text-align:justify;"> </p><p style="text-align:justify;"> </p><h3 style="text-align:justify;"><strong>내 블로그를 학습하는 네이버 AI, 저작권 침해일까?</strong></h3><p style="text-align:justify;">기업 간 소송에 비하면 속도와 화제성은 부족하나, 장기적으로는 개인의 저작물 역시 관심의 대상이다. 블로그나 카페에 작성한 글의 저작권은 AI의 데이터 학습에 있어 어떤 지위를 가져갈 수 있을까?</p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://www.wishket.com/media/news/3035/image1.png"><figcaption>네이버 블로그를 출처로 사용한 클로바 X의 답변 <출처: 작가></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">국내에서는 네이버의 AI 학습을 둘러싼 논란이 진행 중이다. 네이버는 2018년 5월 이용약관을 개정하면서 ‘이용자가 제공한 콘텐츠는 서비스 개선과 새로운 서비스 제공을 위해 AI 분야 기술 등의 연구개발 목적으로 네이버 및 네이버 계열사에 사용될 수 있다’는 내용을 포함했다. 실제로 네이버의 대화형 에이전트 서비스인 ‘클로바 X’를 사용해 보면 답변에 블로그 문서를 출처로 사용하는 모습이 종종 나타난다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">2023년 8월, 이와 관련해 공정거래위원회(이하 공정위)가 조사에 나선다는 소식이 전해졌다. 해당 약관이 콘텐츠 저작권을 과도하게 침해한다는 취지의 신고가 접수된 것이다. 2024년 국정감사에서도 관련 질의가 이어졌고, 네이버는 “(이용자로부터) 법적으로 명확하게 동의를 받은 것”이라며, “우려에 충분히 공감하며 내부적으로 검토 중이다”라는 원론적인 답변을 내놓은 바 있다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">지난해 12월 발간된 공정위의 ‘생성형 AI와 경쟁’ 보고서를 참고하자면, ‘데이터 수집으로 인한 이용자 권리 침해’와 ‘AI 기능 향상을 통한 이익 증대’를 비교했을 때 해당 약관의 내용이 ’부당하게 불리한지’ 여부가 쟁점이 될 것으로 보인다. 문화체육관광부와 저작권위원회의 ‘생성형 AI 저작권 안내서’가 ‘홈페이지나 블로그, SNS 등을 통하여 공개된 저작물이라는 사실만으로 해당 저작물을 저작권자 허락 없이 이용할 수 있는 것은 아니’라는 점을 명시한 사실도 주목할 만하다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">다만 네이버의 약관이 불공정 약관에 해당한다는 결론이 난다고 해도, 현실적으로 보상을 지급할 확률은 낮다. 그보다는 저작물 이용 동의와 관련된 개정이 이루어질 가능성이 크다. 공정위의 보고서는 영국 정부의 ‘옵트아웃(opt-out)’ 모델<span style="color:#757575;">*</span>을 하나의 예시로도 들고 있다.</p><p style="text-align:justify;"><span style="color:#757575;">*저작권자가 거부하지 않는 이상, 저작권이 있는 저작물을 AI의 학습 데이터로 활용할 수 있도록 허용하는 모델</span></p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://www.wishket.com/media/news/3035/image3.jpg"><figcaption>영국의 뮤지션들이 발매한 ‘침묵 음반’ <출처: 미국음반산업협회 페이스북></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">한편 최근 1,000여 명의 영국 뮤지션이 AI 데이터 학습에 대한 항의의 의미로 ‘침묵 음반’을 발매했다. 폴 매카트니, 엘튼 존, 앤드루 로이드 웨버 등 유명 예술가들이 법안 수정을 요구하는 기고에 동참하는 등 갈등이 이어지고 있다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;"> </p><h3 style="text-align:justify;"><strong>저작권 보호와 AI 발전 사이</strong></h3><figure class="image image_resized" style="width:100%;"><img src="https://www.wishket.com/media/news/3035/image2.png"><figcaption>오픈AI와 2억 5천만 달러 규모의 라이선스 협약을 체결한 뉴스코프 <출처: 뉴스코프></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">이처럼 AI의 데이터 학습과 저작권 분쟁이 느리지만 진전을 보이는 가운데, 글로벌 AI 기업은 언론사, 출판사 등과 정식 계약이나 파트너십을 체결해 데이터에 대한 대가를 지불하고 학습에 활용하는 추세다. 오픈AI가 월스트리트저널 등 글로벌 미디어를 소유한 뉴스코프에 지불하는 콘텐츠 라이선스 비용은 5년간 무려 2억 5천만 달러에 이른다고 전해진다. 그 외로도 오픈AI는 타임, 파이낸셜타임즈, 르몽드 등 다수의 미디어 기업과 제휴를 이어가고 있다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">특정 기업이나 분야, 산업에 특화된 ‘버티컬 AI’의 활성화도 예상된다. 광범위하며 일반적인 데이터를 학습하는 범용 AI와 달리, 버티컬 AI는 필요한 데이터만 전문적으로 학습하므로 데이터 활용에 대한 부담이 크게 줄어든다. 글로벌 빅테크의 막대한 자본을 따라가기 힘든 시장에서 타깃을 좁혀야 성공 가능성을 높일 수 있다는 점도 매력적이다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">데이터를 활용하거나 거래하는 비즈니스 역시 활발해지고 있다. 한국언론진흥재단은 지난해부터 97개 언론 매체의 뉴스 데이터를 AI 학습용으로 판매하기 시작했다. AI 스타트업 셀렉트스타는 라이선스가 확보된 데이터 거래를 중개하는 ‘데이터셋 스토어’를 운영 중이며, 크라우드웍스 역시 최근 블록체인 기반 AI 데이터 거래 플랫폼의 베타 서비스를 선보였다. AI 학습용 데이터 거래 시장 규모가 커진다면, 개인이 작성하거나 제작한 저작물 데이터와 저작권 등을 AI 학습용으로 판매하는 사례도 늘어날 것이라 추측할 수 있다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">이와 같은 동향은 AI 업계에 양날의 검이다. AI 학습에 필요한 고품질의 데이터가 부족하며, 데이터 구매에 소요되는 시간도 긴 지금 상황에서 데이터 거래 활성화는 반가운 소식이다. 그러나 데이터 거래 비용의 상승은 업계 전반, 특히 중소기업에 큰 부담으로 다가온다. 이에 공공 데이터 확충, 데이터 표준 마련, 플랫폼 구축, 규제 완화 등이 요구되고 있다. 한편 이는 앞서 다룬 저작권 침해 논란과 상충하는 면이 존재한다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">학습 데이터 확보 작업이 AI의 경쟁력과 가치에 영향을 미치는 핵심 요소 중 하나라는 점은 자명하다. 이는 국가 차원에서도 산업 발전과 경쟁력 강화를 위해 반드시 해결해야 하는 과제다. 그러나 이 과정에서 저작권의 가치가 무시되어서는 안 된다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">결국 AI 데이터 학습에 대한 논란의 핵심은 저작권 보호와 AI 발전이라는 두 가지 가치 사이에서 균형점을 찾는 데에 있다. 올해 이루어질 법원의 판결과 정책∙규제의 변화가 이러한 균형점의 초석이 되기를 바란다.</p><hr><p style="text-align:justify;"><strong><참고 자료></strong></p><ul><li style="text-align:justify;"><a href="https://www.copyright.or.kr/information-materials/publication/research-report/view.do?brdctsno=52591">생성형 AI 저작권 안내서</a>/ 과학기술정보통신부, 한국저작권위원회</li><li style="text-align:justify;"><a href="https://nsp.nanet.go.kr/plan/subject/detail.do?nationalPlanControlNo=PLAN0000049839">‘생성형 AI와 경쟁’ 보고서</a>/ 공정거래위원회</li><li style="text-align:justify;"><a href="https://www.shinkim.com/attachment/828">미국 연방저작권법상 공정이용 판단 요소의 적용 사례 분석</a>/ 송재섭</li><li style="text-align:justify;"><a href="https://www.copyright.or.kr/information-materials/trend/the-copyright/view.do?brdctsno=52530&pageIndex=5&noticeYn=&brdclasscodeList=&etc2=&etc1=&searchText=&searchkeyword=&brdclasscode=02&nationcodeList=&searchTarget=ALL&nationcode=">AI 저작권 관련 Sarah Andersen v. Stability AI 소송 분석</a>/ 이대희</li></ul><p style="text-align:justify;"> </p><p style="margin-left:0px;text-align:center;"><span style="color:rgb(153,153,153);">©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.</span></p>