오픈AI가 공개한 ‘Sora 2’는 텍스트나 이미지만으로 사실적인 영상을 생성하는 생성형 AI 모델이며, 구글의 ‘Veo 3.1’은 장면 전환과 오디오까지 정교하게 구현하는 차세대 영상 생성 툴이다. 이처럼 다양한 AI 기반 영상 제작 툴들이 발전하면서, 이제는 전문 지식이 없어도 누구나 영상을 손쉽게 제작할 수 있는 시대가 되었다.

기획자인 나 역시 AI 영상 툴을 활용해 기획부터 제작, 편집까지 직접 진행할 수 있게 되었다. 결과를 보니, 텍스트나 이미지로 생성되는 Sora 2의 영상 퀄리티에 깜짝 놀랐다. 특히 시나리오를 기획할 때 제미나이 스토리북(Gemini Story Book)이나 ChatGPT를 이용하면, 핵심 이미지 콘티를 자동으로 생성해 영상 제작의 기반도 쉽게 마련할 수 있었다. 만약 영상 제작 전문가라면 AI로 생성된 영상 클립을 추가 자료로 활용할 수도 있다. 이를 기반으로 최종 영상을 보정해 고품질로 완성도를 높인다면, 본연의 업무에 더욱 집중할 수 있을 것이다.

이번 글에서는 AI 기반 영상 제작 툴을 활용해, 홍보나 상품 소개용으로 20초 이상의 고품질 영상을 제작할 수 있는 실용적인 팁을 알아보고자 한다.

제미나이 스토리북을 활용한 스토리라인 작성

영상 제작의 기반은 견고한 스토리라인 기획에서 출발한다. 아이디어를 시각적인 시퀀스로 전환하는 과정에서 제미나이 스토리북을 사용하면, 스토리보드의 뼈대를 쉽고 빠르게 세울 수 있다. 또는 제미나이 스토리북처럼 시나리오 전용 젬스(Gems)를 만들어 사용하면, 영상의 각 장면(Scene)을 세부적으로 분할할 수 있다. 이를 통해 시퀀스 기반의 설계를 적용하면, 영상의 전체 구조를 더욱 체계적으로 구축할 수 있다. 혹은 아래 예시처럼, 생성형 AI 대화창에 간단히 프롬프트를 입력하는 방법도 있다.

제미나이 스토리북 프롬프트 예시:
“<고요 속의 달콤함>이라는 주제로 복잡한 도시 생활에서 지친 상태를 표현하되, 아래 3가지 흐름을 고려해서 시나리오를 작성해줘”

1. 도심 속 복잡한 생활에서 무표정으로 있는 장면
2. 혼자만의 장소로 가는 장면
3. 좋아하는 초콜릿을 한 조각 입안에 넣고 행복해하는 장면
4. 마지막엔 자신을 위한 시간이 필요하다는 메시지

결과 확인하기

챗GPT 프롬프트 예시:
“<고요 속의 달콤함>이라는 주제로 복잡한 도시 생활에서 지친 상태를 표현하되, 도심 속 복잡한 생활에서 무표정으로 있다가 좋아하는 초콜릿을 한 조각 입안에 넣고 행복해하는 스토리의 흐름을 흰색과 검은색 선만으로 8컷 스토리보드 콘티 이미지를 만들어줘”

결과 확인하기

또한 결과에서 나온 콘티 이미지를 프롬프트 없이 그대로 소라 2에 올리기만 해도, 자동으로 영상을 만들어 준다. 만약 상업용 광고 영상을 제작한다면, 상품 상세 정보나 리뷰 자료를 참고하는 것도 큰 도움이 된다. 또한 제미나이의 나노 바나나(Nano Banana) 기능으로 필요한 장면을 세밀하게 수정하여, 각 장면을 체계적으로 준비할 수 있다.

실전 영상 소스 제작, 편집하기

이제 앞서 준비한 이미지를 바탕으로, 영상에 생동감을 불어넣을 소스를 만들어 볼 차례다. 현재 Sora 2,Veo 3.1, Flow, Pixverse, Kling, Hailuo, Deevid, Hygen, OpenMagic, Topview 등 다양한 툴이 있지만, 지금도 새로운 툴이 계속 출시되고 있다. 이 수많은 툴 중에서 목적에 맞는 툴을 선택해 활용하는 것이 중요하다. 예를 들어, 탑뷰(TopView)는 구매 전환율이 높은 상품 소개 영상을 제작하는 데 최적화되어 있고, 브랜딩 영상은 픽스버스(Pixverse)가 더욱 적합하다.

이번 글에서는 Sora 2, Veo 3.1, 클링(Kling), 헤일루(Hailuo), 캔바(Canva)를 중심으로 살펴보고자 한다.

1) Sora 2로 영상 만들기

Sora 2는 간단한 텍스트를 입력하거나, 이미지를 올리면 자연스러운 영상을 만들어 준다. 특히 장면 전환이 부드럽고, 자막과 한국어 립싱크가 자연스럽다. 또한 영상 분위기에 어울리는 음악까지 자동으로 구성해 주기 때문에, 이전 버전에 비해 훨씬 높은 퀄리티의 결과물을 얻을 수 있다.

또한 이전에는 없던 나만의 아바타나 유사한 카메오를 직접 생성할 수도 있다. 다만 이 기능을 사용할 경우에는 영상을 다운로드할 수 없으며, 사실적인 인물 이미지를 업로드하면 영상 제작 기능이 제한된다. 이는 딥페이크(Deepfake) 관련 이슈를 관리하기 위한 내부 규정과 가이드라인을 잡아가는 과정으로 보인다.

그리고 Sora 2는 위 예시와 같이 약 10초 분량의 영상 제작을 지원한다. 따라서 여러 영상을 연결해 사용할 경우에는, 시작과 끝 프레임을 정교하게 조정할 수 있는 도구가 필요하다. 이와 관련해 어떤 툴들이 이러한 역할을 수행할 수 있는지도 이후에 자세히 소개할 예정이다.

2) 구글의 Veo 3.1로 영상 만들기

구글의 Veo 3.1은 전반적인 영상 퀄리티 개선뿐만 아니라, 시작과 끝 프레임을 선택해 영상 생성이 가능하다는 점이 돋보인다. 또한 마지막 1초를 기준으로 새로운 영상을 자동으로 이어 붙이는 기능을 지원해, 최대 1분 이상의 영상을 제작할 수 있다는 점에서 Sora 2와 차별화된다.

특히 사람, 물건, 장면 등 참고 이미지를 기반으로 영상을 생성한다는 점이 인상적이다. 아래와 같이 세 가지 이미지를 올리고 프롬프트를 입력하면, 이에 맞는 영상을 만들어 준다. 참고로 Veo 3.1 사용은 플로우를 이용했다.

Veo 3.1에서 사람, 물건, 장면 이미지로 비디오 생성(상), 영상을 이어서 확장하는 화면(하) <출처: 작가 캡처>

실제로 두 툴을 모두 사용해 본 결과, Veo 3.1, Sora 2 모두 상품의 로고나 실제 크기 등이 일부 변형되어, 완성된 결과물을 그대로 활용하기에는 추가 편집이 필요했다. 다만 두 툴 중에서는 Sora 2의 영상 퀄리티가 좀 더 자연스러웠다.

3) 클링 AI로 영상 만들기

클링(Kling) AI는 이미지 기반으로 비디오 생성 시, 시작과 끝 이미지를 선택하고 프롬프트를 입력하면 약 5초 정도의 클립을 제작할 수 있는 툴이다. 클링 AI의 가장 큰 장점은 멀티모달 편집, 립싱크, 사운드 추가 등 다양한 기능을 함께 사용할 수 있다는 점이다. 또한 프롬프트를 작성하지 않아도 영상을 생성할 수 있으며, 원하는 동작이나 움직임을 입력하면 의도한 결과물에 더욱 가깝게 제작할 수 있다.

4) 헤일루 AI로 영상 만들기

헤일루 AI(Hailuo AI) 역시 시작 이미지와 끝 이미지를 기반으로 영상을 제작할 수 있다. 다만 사운드 효과가 기본적으로 포함되지 않는 점은 다소 아쉬웠다. 또한 프롬프트(prompt)를 작성할 때는 원하는 동작을 최대한 단순하고 명확하게 표현해야, 의도한 결과물을 얻을 수 있다.

예를 들어, 시작 이미지에는 스마트폰이 없지만 끝 이미지에는 스마트폰이 있다면, ‘들고 있는 스마트폰을 내려놓고 창가로 간다’와 같이 구체적인 동작 프롬프트를 반드시 입력해야 한다. 그렇지 않으면 디퓨전(diffusion) 방식의 특성상, 손 모양을 임의로 바꾸어 스마트폰을 새로 만들어내는 현상이 발생할 수 있다.

5) 캔바를 활용한 최종 편집 및 오디오 추가

캔바(Canva)는 주로 프레젠테이션(PPT) 제작 도구로 잘 알려져 있지만, 최근에는 AI 영상 제작 기능도 지원하고 있다. 사용 방법은 간단하다. 먼저 프로필 > 설정에서 언어를 영어로 변경한 뒤, 홈 화면에서 ‘Canva AI’를 선택하면, Veo 3 기반의 동영상 생성 기능을 활용할 수 있다.

또한 캔바 AI로 생성한 이미지나 영상 클립뿐만 아니라, 앞서 제작한 영상 클립들을 캔바에 업로드해 하나의 스토리로 연결하고, 오디오를 추가하면 영상의 완성도를 더욱 높일 수 있다. 내가 캔바를 선택한 이유는, 영상 편집 시 시작과 끝 장면을 자연스럽게 이어 붙일 수 있다는 점과 다양한 출력 포맷을 지원한다는 점 때문이다. 무엇보다 사용자 경험에서도 인터페이스가 직관적이라 사용하기도 쉽다.

<출처: 캔바 동영상으로 편집한 결과>

AI와 함께 확장되는 창의의 영역

구글의 Veo 3.1과 OpenAI의 Sora 2를 비롯해 다양한 AI 영상 제작 툴을 직접 사용해 본 결과, 기획력을 바탕으로 탄탄한 스토리라인만 세울 수 있다면, 누구나 손쉽게 영상을 제작할 수 있는 시대가 열렸음을 실감했다. 앞으로는 AI가 만드는 영상이 더 현실적이고 의미 있는 콘텐츠 수준으로 발전할 것으로 보인다.

실제로 AI 영상 제작 시장은 2032년 약 25억 달러 규모로 성장할 전망이며, 이는 폭발적으로 늘어나는 숏폼 콘텐츠 수요와 함께 더욱 가속화될 것이다. MAKEBOT AI 조사에 따르면, 제작 비용은 약 60% 절감, 제작 시간은 80% 단축이 가능하며, 1~2시간이면 완성된 결과물을 얻을 수 있다고 한다.

AI 영상 제작 툴을 직접 사용하며 느낀 가치는 단순한 제작 효율성이 아니라, 창의적 발상을 증폭시킨다는 점이었다. AI는 내가 생각하지 못한 새로운 모션과 시퀀스를 제안하며, 아이디어 발상에서 파트너 역할을 충실히 해냈다. 또한 최근 출시된 구글 Veo 3.1과 OpenAI Sora 2는 영상과 오디오를 동시에 생성하면서, 물리 법칙까지 정교하게 반영하고 있다. 이러한 기술은 AI 영상 제작 흐름을 한 단계 더 끌어올릴 전환점이 될 것이다.

끝으로 나는 AI가 제작자를 대체하는 존재가 아니라, 제작자가 더욱 본질적인 업무에 집중할 수 있도록 돕는 파트너가 될 것이라 생각한다. 섬세한 퀄리티와 복잡한 내러티브 구현에는 여전히 전문가의 손길이 필요하기 때문이다. 스토리의 일관성, 감정의 흐름, 브랜드 정체성 구현 또한 인간의 감각과 판단력이 뒷받침되어야 완성될 수 있다.

그렇다면 우리는 AI가 만든 영상 속에서, 인간만의 감성을 어떻게 이어갈 수 있을까? 이제 그 지점을 고민해 볼 차례다.