OpenAI에서 ‘Sora’라는 새로운 비디오 생성 모델을 공개했습니다. 처음 이 소식을 접했을 때, 과거에 다른 기업들이 선보인 ‘Text-to-Video’ 서비스의 품질을 생각하며 크게 기대하지 않았는데요. 실제로 구현된 샘플 영상을 보고 난 후 생각이 바뀌었습니다.

회원가입을 하면 원하는 문장을
저장할 수 있어요!

OpenAI의 새로운 무기, 텍스트-비디오 모델 ‘Sora’

이재훈

9분

2024.02.20.

Sora란?

먼저 ‘소라(Sora)’라는 이름은 하늘을 뜻하는 일본어에서 유래되었는데요. “무한한 창의적 잠재력을 연상시키는 이름”이라고 설명했습니다.

Sora는 ChatGPT와 마찬가지로 텍스트 프롬프트를 기반을 동작하는 서비스입니다. ChatGPT와 다른 점이 있다면, Sora는 사용자가 텍스트로 묘사한 장면을 영상으로 생성할 수 있다는 점이죠. 이 서비스는 단순한 상황 설명에서부터 복잡한 시나리오에 이르기까지, 사용자의 상상을 현실로 변환하는 데 초점을 맞추고 있습니다. 백문이 불여일견이라고, OpenAI에서 제공한 몇 가지 샘플 영상과 해당 영상을 생성할 때 사용된 프롬프트를 살펴보겠습니다.

프롬프트: A Chinese Lunar New Year celebration video with Chinese Dragon.

프롬프트: 3D animation of a small, round, fluffy creature with big, expressive eyes explores a vibrant, enchanted forest. The creature, a whimsical blend of a rabbit and a squirrel, has soft blue fur and a bushy, striped tail. It hops along a sparkling stream, its eyes wide with wonder. The forest is alive with magical elements: flowers that glow and change colors, trees with leaves in shades of purple and silver, and small floating lights that resemble fireflies. The creature stops to interact playfully with a group of tiny, fairy-like beings dancing around a mushroom ring. The creature looks up in awe at a large, glowing tree that seems to be the heart of the forest.

프롬프트: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

MP4 파일을 GIF 파일로 컨버팅하는 과정에서 화질의 저하가 있었음에도 불구하고, 위와 같이 여전히 뛰어난 품질을 보여주고 있는데요. 이제 Sora가 어떻게 개발되었는지 알아보겠습니다.

Sora의 개발 과정

OpenAI에서는 Sora의 기술 보고서(Technical Report)를 통해 다양한 모델 훈련 과정을 공개했는데요. 이 중에서도 가장 중요하다고 생각되는 세 가지 내용을 추려봤습니다.

1) 시각적 데이터를 패치로 변환

Sora는 ChatGPT의 성공 방식을 그대로 계승했습니다. 대규모 언어 모델(Large Language Model, LLM)이 다양한 형태의 텍스트를 토큰으로 변환하는 방식과 유사하게, Sora는 비디오나 이미지 같은 시각적 데이터를 ‘패치’라고 부르는 더 작은 단위로 나누는 작업을 수행합니다.

시각적 데이터를 ‘패치’로 분해하는 작업 <출처:OpenAI, Sora Technical Report>

이렇게 시각적 데이터를 패치로 나눔으로써 다양한 해상도, 기간, 그리고 종횡비를 가진 비디오와 이미지들을 효율적으로 학습할 수 있게 됩니다. OpenAI는 패치 기반 방식이 다양한 유형의 동영상과 이미지에서 생성 모델을 훈련하는데 확장성이 높고 효과적이었다고 설명했습니다.

2) 비디오 압축 네트워크

Sora는 시각적 데이터의 차원을 줄이는 네트워크를 훈련합니다. 이 네트워크는 원본 비디오를 입력받아, 시간적 및 공간적으로 압축된 잠재 표현(Latent representation)을 출력합니다. 이후 Sora는 압축된 잠재 공간 내에서 비디오를 생성하기 위해 학습을 진행합니다. 또한 생성된 잠재 변수를 다시 픽셀 공간으로 매핑하는 디코더 모델도 함께 학습됩니다.

이를 조금 더 쉽게 설명하면, 원본 비디오를 압축하여 차원을 축소한 후 모델 훈련 및 생성을 수행하고, 마지막으로 이를 다시 원래의 크기로 복원하는 과정으로 생각할 수 있습니다. 이러한 접근 방식으로 얻을 수 있는 주요 이점은 크게 두 가지입니다.

효율: 차원(크기)이 줄었기 때문에 학습 및 생성 속도가 증가하여 전반적인 효율이 상승합니다.
품질: 원본 비디오에서 상대적으로 중요하지 않은 정보(노이즈 등)를 제거하고, 중요한 정보들만 압축함으로써 생성된 비디오의 품질을 향상시킬 수 있습니다.

3) 스케일링 변환기

Sora는 확산 변환기(diffusion transformer) 모델을 기반으로 합니다. 변환기 모델은 언어 모델링, 컴퓨터 비전, 이미지 생성 등 다양한 분야에서 뛰어난 확장성을 보여준 바 있는데요. Sora는 노이즈가 있는 패치를 입력으로 받았을 경우, 원본의 '깨끗한' 패치를 예측하도록 훈련됩니다.

‘깨끗한 패치’를 예측하는 훈련 과정 <출처:OpenAI, Sora Technical Report>

위 그림을 예로 들면, 첫 번째 사진처럼 노이즈가 가득한 비디오에서 시작하여, 점차 노이즈를 제거해 가며 세 번째 사진의 비디오를 생성하는 과정을 말합니다.

좌측부터 기본 컴퓨팅, 4배 컴퓨팅, 32배 컴퓨팅 <출처:OpenAI, Sora Technical Report>

이러한 접근 방식은 이미지뿐만 아니라 비디오 모델에서도 효과적으로 확장될 수 있음을 뜻하며, 위 예시처럼 훈련 연산이 증가함에 따라 비디오 샘플의 품질이 확연히 향상되는 것을 확인할 수 있습니다.

위에서 언급한 세 가지 방법 외에도 OpenAI는 ChatGPT를 개발하면서 습득한 ‘언어 이해 능력’과 DALL-E를 통해 쌓은 ‘이미지 생성 노하우’를 적극적으로 활용했습니다. 각각 최고 수준에 이른 기술을 결합하고 발전시켜, 현재의 Sora를 구현해 냈다고 볼 수 있습니다.

아직은 불안정한 Sora

구글이 제미나이를 발표하면서 영상 조작으로 논란이 됐던 것을 교훈 삼은 걸까요? OpenAI에서는 Sora의 상태가 아직 완벽하지는 않다며, 문제가 되고 있는 부분을 함께 공개했습니다.

프롬프트: Step-printing scene of a person running, cinematic film shot in 35mm.
문제점: 러닝머신을 거꾸로 사용하는 등 물리적으로 불가능한 동작을 생성

프롬프트: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.
문제점: 여러 개체가 함께 등장하는 경우, 개체의 수가 갑자기 줄어들거나 늘어나는 등의 문제가 발생

이처럼 복잡한 장면에서 물리적 오류가 발생하거나, 왼쪽과 오른쪽을 혼동하는 경우, 카메라 궤적을 따라갈 때 시간 싱크가 맞지 않는 등의 문제가 생길 수 있다고 발표했습니다. 물론 시간이 지남에 따라 이러한 문제들은 자연스럽게 감소할 것으로 보입니다.

우려되는 안전 문제는?

이번 발표를 통해 우리는 안전 문제에 관해 우려하지 않을 수 없는데요. 생성된 영상의 품질이 향상됨에 따라 이를 악용할 여지가 분명 존재하기 때문입니다. 이러한 우려를 불식시키기 위해 OpenAI는 안전 조치를 최우선 과제로 설정했습니다.

ChatGPT와 DALL-E의 안전 준수에도 활용된 레드팀의 역할 <출처:OpenAI, DALL-E3 System Card>

먼저 OpenAI는 Sora를 대중에게 바로 공개하지 않기로 결정했습니다. 대신 정보의 오류, 혐오 콘텐츠, 편견과 같은 분야의 전문가들로 구성된 ‘레드(Red)’팀과 적대적 테스트 먼저 진행할 예정입니다. 이와 동시에 시각 예술가, 디자이너, 영화 제작자 일부에게 사용 피드백을 받으며 개선하는 작업을 진행 중이라고 밝혔고요.

또한 Sora가 생성한 동영상의 생성 시점을 파악할 수 있는 탐지 분류기를 포함한 추가적인 안전장치를 강화할 예정이며, ChatGPT와 DALL-E에 적용하여 안정성이 입증된 텍스트 분류기를 적극 활용할 예정입니다.

이 기술은 폭력, 성적 콘텐츠, 혐오 이미지, 유명인의 초상화, 타인의 IP(지식재산권) 침해 등 정책 위반 가능성이 있는 콘텐츠를 철저히 차단해 왔는데요. 이를 활용함과 동시에, 생성된 동영상의 모든 프레임을 세심하게 검토하고, 정책 준수 여부를 확인한 후에만 결과물을 출력할 예정입니다.

마치며

Sora의 등장은 콘텐츠 제작에 있어서 중대한 전환점이 될 것으로 예상됩니다. 이는 인간의 창의성을 확장시키는 도구로서의 가능성은 물론, 기술과 예술의 경계를 넘어 모든 사람이 자신의 이야기를 시각적으로 풍부하게 표현할 수 있는 새 시대를 열 것으로 기대되는데요. 이를 통해 영화 제작자, 애니메이터, 교육 콘텐츠 제작자, 마케터 등 다양한 분야의 전문가들이 자신의 아이디어를 빠르고 효과적으로 생성해 낼 수 있게 되었습니다.

동시에 이러한 변화는 일자리 손실에 대한 우려를 불러오는데요. 기존에는 하나의 영상물을 만들기 위해 카메라 및 장비제조업자를 시작으로 영상 기획자, 카메라 감독, 영상 편집자, 배우, 코디, 헤어/메이크업 아티스트, 촬영 스탭(장소 섭외 등) 등에 이르기까지 다양한 사람들의 노력이 필요했지만, 이제는 Sora와 단 한 명의 사용자만으로도 다양한 작업이 가능해졌기 때문입니다. 추후 광고, 영상 업계에 있는 많은 사람들의 일자리를 위협할 수도 있는 문제죠.

특히 한 회사(OpenAI)의 영향력이 너무 크다는 점에서도 문제가 될 수 있는데요. 이에 “AI 기술이 인류 전체의 이익과 공공의 선을 위해 사용되어야 한다.”, “AI 기술의 장기적인 영향을 고려하여, 인류에게 이익이 되는 방향으로 기술을 발전시킨다.”와 같은 OpenAI의 목표가 여전히 유효하길 바라며, 앞으로 AI 기술을 더 안전하고 두려움 없이 사용할 수 있는 환경이 조성되길 기대해 봅니다.

idiz1114

            적대적 테스트가 무엇인가요?
맥락상 적대적 감정을 지닌 사용자가 사용성 테스트를 진행하는 개념인 줄 알았는데
검색해보니 ML 관련 용어인가 보네요.

2024.02.20. 오전 10:57

수정됨

teantin

            @idiz1114 원어로는 adversarial testing 으로 ML모델의 결함을 찾기 위해 일부러 위험하거나 이상한 입력을 넣어보는 것을 의미합니다. 의미는 조금 다르겠지만 일종의 해킹 시도라고 봐도 무방할 것 같습니다

2024.02.20. 오후 15:11

이재훈

작가

            @idiz1114 teantin님께서 너무 잘 설명해 주셨네요. 감사합니다 :)

이해를 돕기 위해 조금만 덧붙이자면, 'Sora'와 같은 Text-to-Video 서비스의 경우 사회적으로 문제가 될 수 있는 가짜뉴스, 음란물 등을 생산해낼 수 있는 가능성이 높습니다. 이러한 위험을 사전에 차단하기 위해 '레드팀'은 실제 악성 사용자라고 가정한 뒤, 다양한 텍스트를 입력하여 문제를 일으킬 가능성이 있는 영상이 생성되는지 확인하는 것입니다. 만약 문제가 발생할 소지가 있다면, 해당 내용이 생성되지 않도록 조정하는 작업을 반복합니다. 

예를 들어, '트럼프'라는 단어를 사용했을 때 차단되는 것을 확인하는 것은 물론, '트럼프'라는 명시적인 언급 없이도 그와 매우 유사한 특징을 상세히 묘사하여 영상을 제작했을 때, 생성된 영상 속 인물이 트럼프라는 사실을 인지하고 차단되는지 여부를 테스트합니다. 이는 민감한 내용이나 인물을 잘못 표현하는 것을 방지하기 위해 중요한 과정입니다.

2024.02.20. 오후 19:35