영상 편집은 매우 노동 집약적인 작업입니다. 저도 한 때는 유튜브를 했습니다. 하지만 3분짜리 유튜브 영상을 만들기 위해 3시간이 걸리는 매-직을 겪은 후 유튜버들이 쉽게 돈을 버는 것이 아니란 것을 깨달았죠. 3분짜리 영상도 이런데 방송국에서 1시간짜리 영상을 만들려면 얼마나 오래 걸리게요? 예를 들어, 한 편의 예능을 촬영한다고 해볼까요?

Photo by REX WAY on Unsplash

물론 대본이 있지만 리얼리티 (이젠 리얼리티가 아닌 것이 없지만)가 대세이므로 출연진의 즉흥 대사와 행동이 주를 이룹니다. 3~20시간 동안 영상을 촬영한 후, 영상 파일을 수동으로 태깅합니다. 몇 분 몇 초부터 몇 분 몇 초까지는 누가 무엇을 하는 장면이라고 말이죠. 혹은 어떤 구간이 가장 재미있었는지를 표시할 수도 있겠습니다.

그 후 편집 팀에서 가장 재미있는 장면만 이어 붙이고, 재미를 극대화해줄 자막과 효과, 음악을 넣습니다. 이렇게 한 편의 방송은 방송 업계 종사자들의 강도 높은 노동으로 만들어지죠. 그래도 업계 종사자에겐 전문 기술과 노하우가 있습니다. 어떻게 하면 더 빠르게, 그리고 재미있게 콘텐츠를 만들 수 있는지 알고 있습니다.

AI가 유튜버를 풍요롭게 하리라

개인 유튜버들은 막막하기만 합니다.

Photo by CardMapr on Unsplash

영상 업계에 처음 발을 디뎠는데 이렇게 힘들 줄 몰랐거든요. 연예인이 아닌 이상 대부분은 혼자 방송을 시작합니다. 유튜버들은 콘텐츠 기획부터 촬영, 편집까지 끊임없는 노동에 시달립니다. 주 1~2회는 영상을 올려야 하기 때문에 잠시도 쉴 수 없습니다. 만약 영상의 퀄리티를 포기한다면 수월할 수 있겠지만, 퀄리티를 조금이라도 올리려면 편집 시간이 기하급수적으로 늘어납니다.

이러한 시대에 발맞춰 이제는 AI가 영상 편집 노동자의 삶을 풍요롭게 할 수 있습니다. 아직 연구 단계인 서비스도 있지만, 아래 사례를 보면 상용화도 근 시일 내에 가능할 것 같습니다. 유튜버와 1인 방송인들을 풍요롭게 할 AI를 소개합니다.

1. 대화&씬 기반 AI 영상 편집기(fluffles - ADOBE & stanford R&D)

드라마 촬영 현장을 보신 적이 있으신가요? 제작진은 동일한 장면을 여러 번 촬영합니다. 다양한 각도에서 가장 좋은 영상 소스가 나올 때까지요. 두 사람의 대화 장면을 예로 들어보겠습니다. 드라마에서는 주로 말하는 사람의 얼굴이 클로즈업됩니다. 자연스러운 대화 장면을 편집하기 위해선 A 배우가 말하는 장면, B 배우가 말하는 장면, 그리고 그 둘을 함께 담은 장면이 필요하죠. 모든 장면을 촬영한 후 A 배우의 대사가 나올 때 A의 얼굴을, B 배우가 말할 때 B의 얼굴이 나올 수 있게 편집합니다. 촬영하는 것도 오래 걸리고 이를 매끄럽게 편집하는 것도 오래 걸립니다. 영상 편집 툴 프리미어 프로를 보유한 ADOBE와 스탠퍼드 대학교가 협력하여 영상 편집 자동화를 연구했습니다. 이들은 전문 영상 편집자가 73초짜리 영상을 편집하는데 3시간이 걸리는 것을 알게 되었습니다. 그래서 영상 소스의 음성과 이미지를 분석하여 자동으로 편집하는 "Fluffles"라는 툴을 만들었습니다. Fluffles는 영상 소스를 대사 별로 구분합니다. 그리고 사용자는 편집 양식을 선택해 영상 스타일을 원하는 방향으로 조정할 수 있습니다.

Computational video editing for dialogue-driven scenes. ACM Trans. Graph., 36(4), 130-1.

편집 양식에는 이러한 조건이 있습니다. 대화 내용 별: 현재 말하는 사람의 얼굴이 나오게 할 수 있습니다. 촬영 스타일 별: wide shot으로 영상이 시작되게 할 수 있습니다. 편집 스타일 별: 편집의 속도감을 결정할 수 있습니다. 인물 별: 특정 인물의 등장 비율을 조정할 수 있습니다. 가장 인상 깊었던 것은 유튜브에서 유행하는 "빠른 편집 기법"을 적용할 수 있다는 것입니다. 유튜브를 보다 보면 한 마디가 채 끝나기도 전에 다음 장면으로 넘어가는 것을 보신 적이 있으실 것입니다. 빠른 속도감 양식을 선택하면 바로 유튜브형 편집 양식을 적용할 수 있습니다. 영상 소스 하나하나를 모두 손댈 필요 없이 한 번에 바꿀 수 있다는 것이 Fluffles의 장점입니다.

Computational video editing for dialogue-driven scenes. ACM Trans. Graph., 36(4), 130-1.

Fluffles는 아직 연구 단계로 대화 장면에 특화된 자동 편집 툴입니다. 대화 외 다양한 영상을 자연스럽게 편집할 수 있도록 기술이 발전해야 할 것입니다. 특히, Fluffles는 가장 먼저 대사를 기초로 영상을 구분합니다. 따라서 대사가 중간에 엉키는 영상들을 자연스럽게 편집하는 기술 또한 개발해야 합니다. 위 서비스와 같이 ADOBE 프리미어 프로에 영상 소스를 자동으로 가공해주는 기능이 추가된다면 프리미어 프로가 한 번 더 혁신적인 서비스로 도약할 수 있을 것입니다.

2. text 분석 기반 AI 영상 편집기 (Wibbitz 위비츠)

위비츠는 사용자의 텍스트와 데이터를 영상으로 바꿔주는 서비스입니다. 위비츠를 통해 글자로 적힌 뉴스를 유튜브 뉴스로 쉽게 전환할 수 있습니다. 위비츠가 기존 매체를 영상으로 바꾸는 이유는 무엇일까요?

https://www.wibbitz.com/solution-wavi/

위비츠는 영상이 새로운 문자가 될 것이라고 생각합니다. 즉, 영상이 가장 흔히 쓰일 매체가 될 것이라는 거죠. 저도 영상이 사람들의 생각을 전달하기 가장 효과적인 수단이라고 생각합니다. 눈으로 보는 것만큼 정확한 것이 또 없으니까요. 게다가 영상은 움직이는 사진과 음향 정보도 담고 있습니다. 글을 읽을 땐 머릿속으로 상상해야 하는 것을 영상은 대신해줍니다. 때문에 사람들은 영상 매체를 텍스트보다 선호합니다.

https://www.wibbitz.com/solution-wavi/

위비츠의 "Wavi" 상품 설명서를 보면, Wavi는

1. 온라인 쇼핑몰 사업자를 위해 사용자의 상품 영상을 쉽게 제작하고, 2. 뉴스, 리포트 등의 문자 콘텐츠를 영상으로 변환하는 서비스를 제공하고 있습니다. 홈페이지의 서비스 설명이 충분하지 않아 각 서비스의 활용 방법을 예상해보겠습니다. 첫 번째 서비스는 쇼핑몰 사업자가 가지고 있는 상품 관련 이미지와 영상 소스를 인식해서 자동으로 동일한 상품을 그룹핑합니다. 그 후 판매를 위한 짧은 영상이나 gif 등을 만들어주는 서비스입니다. 구글 포토에서 강아지 사진만 모아주는 것과 비슷한 개념입니다. 두 번째는 최신 이슈를 소개하는 유튜버들에게 유용한 기능입니다. 예를 들어 유튜버들은 "연예인 A모씨가 고급 레스토랑에서 마스크를 끼지 않았다!"는 것으로 유튜브 뉴스로 만들기 위해 마스크를 쓰기 싫어하는 외국인의 모습을 담은 영상과 고급 레스토랑 이미지 등을 구매하거나 다운로드하여 이어 붙입니다. 이렇게 유튜버들은 뉴스 내용의 이해를 돕기 위해 문자를 영상화하곤 하는데요, 위비츠는 영상화를 자동으로 수행해 영상을 쉽게 편집할 수 있게 돕습니다. 하지만 현재 위비츠는 AI 영상 제작보다는 초보자/기업이 퀄리티 높은 영상을 쉽게 만들 수 있는 서비스에 초점을 두고 있습니다. 이는 무료 영상, 이미지 소스와 영상 템플릿을 제공해 쉽게 유튜브 뉴스 영상을 만들 수 있는 서비스입니다. 위비츠가 AI를 통한 효율적인 영상 편집을 목표하고 있긴 하나, 관련 기사는 18년에 머물러 있고 투자를 받았다는 내용에 그칩니다. 위비츠의 AI가 어느 정도의 퍼포먼스를 보이는지에 대한 자료가 없어 신뢰하기 어렵습니다.

그래서 앞으로는?

AI가 인식하고 편집할 수 있는 영상의 범위가 넓어지고 인식 정확도가 높아지면 영상 편집 노동자들이 지난한 노동에서 벗어나 인간만이 할 수 있는 "창조"의 능력 발휘할 수 있을 것입니다.

또, AI가 누구나 퀄리티 높은 영상을 만들 수 있게 한다면 영상 편집이라는 진입 장벽 때문에 원하는 콘텐츠를 제작하지 못했던 사람들도 마음껏 재능을 발휘할 수 있겠죠? 근 미래의 AI 영상 편집 기술의 발전과 그에 따른 새로운 스타플레이어들의 등장을 기대해봅니다.