말로만 떠들썩하던 AI 영상의 유명세에 비해, 실제 성능은 아쉬움이 많았습니다. 지나치게 어색하거나, 아주 짧은 영상만 만들 뿐이었죠. 하지만, 오픈AI가 선보인 영상 생성형 모델 Sora2는 이러한 판세를 모두 뒤집을 힘을 가졌습니다. Sora2는 입력한 이미지를 살아있는 영상으로 만들어 준다고 합니다. 어색함은 사라졌습니다. 어울리는 소리를 함께 만들어 주기까지 하니까요.

이처럼 영상을 만들 때는 일반적인 생성형 모델을 다룰 때와는 또 조금 다른 프롬프트가 필요합니다. 카메라의 위치, 렌즈, 조명, 질감, 타이밍 등을 설정하면 더 좋겠죠. 그래서 오픈AI가 Sora-2를 위해 만든 “공식 프롬프트 가이드”를 GPT-5의 도움을 받아 번역하고 정리했습니다.

내용을 직관적으로 이해할 수 있도록 프롬프트 역시 모두 한글로 번역했습니다. 더 나은 결과물을 얻기 위해 영문 프롬프트가 필요하다면, 원본 문서를 확인하세요.

소라 2 프롬프팅 가이드

프롬프트를 작성하기 전에

프롬프트를 짜는 일은, 여러분이 짠 콘티(스토리보드)를 한 번도 본 적 없는 촬영감독에게 장면을 설명하는 일과 같습니다. 세부 사항을 빠뜨리면 감독은 자기 방식으로 해석해 버릴 것이고, 당신이 의도한 장면과는 다른 결과가 나올 수도 있습니다. 장면(shot)이 전달해야 하는 의미를 구체적으로 설명할수록 모델은 더 높은 수준의 통제력과 일관성을 발휘할 수 있습니다.

하지만 모든 것을 세세하게 지시하지 않는 것도 때로는 강력한 전략이 됩니다. 모델에게 일정 부분의 창의적 자유를 허용하면 예상치 못한 변화나 아름다운 해석이 등장할 수 있습니다. 두 가지 접근 모두 옳습니다. 세부적으로 지시하는 프롬프트는 통제와 일관성을, 여백을 둔 프롬프트는 창의적 다양성을 제공합니다. 어느 쪽을 택할지는 당신의 목표와 원하는 결과물에 달려 있습니다. 프롬프트를 계약서가 아닌 창의적인 위시 리스트라고 생각해 보세요. 챗GPT와 마찬가지로, 같은 프롬프트를 여러 번 사용해도 매번 다른 결과가 나옵니다. 이는 결함(bug)이 아니라 특징(feature)입니다. 새로 나온 생성물은 새로운 해석이며, 두 번째나 세 번째 결과물이 더 나을 수도 있습니다.

그래서 무엇보다 중요한 것은 열려 있는 태도입니다. 카메라 위치, 조명, 동작의 작은 변화만으로도 결과는 크게 달라질 수 있습니다. AI 모델과의 작업도 협업입니다. 당신이 방향을 제시하면, 모델이 그에 대한 창의적 변주를 제공하는 것이죠.

이 과정은 정밀한 과학이 아닙니다. 아래의 지침들은 우리가 모델과 함께 작업하며 얻은 도움이 되는 조언들로 이해하면 됩니다.

API 매개변수

프롬프트는 영상의 내용을 결정하지만, 일부 속성은 API 매개변수(API Parameters) 로만 제어할 수 있습니다. 이러한 속성은 문장으로 요청할 수 없으며, 반드시 API 호출 시 명시적으로 설정해야 합니다.

모델(model): sora-2 또는 sora-2-pro
크기(size): {width}x{height} 형태의 문자열로 지정합니다. 모델별로 지원하는 해상도는 다음과 같습니다.
[sora-2] 1280x720, 720x1280, [sora-2-pro] 1280x720, 720x1280, 1024x1792, 1792x1024
초(seconds): 영상 길이. 지원되는 값은 “4”, “8”, “12”이며, 기본값은 “4”입니다.

이 매개변수들은 영상의 컨테이너(틀) 역할을 합니다. 이를테면 영상의 길이는 “좀 더 길게 만들어줘”와 같은 문장형 요청으로는 바뀌지 않습니다. 반드시 API 호출에서 직접 설정해야 합니다. 프롬프트는 그 외의 모든 요소(피사체, 움직임, 조명, 스타일 등)를 제어합니다.

영상 해상도(Video Resolution)

영상 해상도는 Sora에서 시각적 정밀도와 움직임의 일관성에 직접적인 영향을 미칩니다. 해상도를 높이면 디테일, 질감, 조명 변화 등을 더 정확하게 표현합니다. 낮은 해상도는 시각적 정보를 압축해 부드러움이나 왜곡(artifact)이 생길 수 있습니다.

영상 길이 (Video Length)

모델은 일반적으로 짧은 영상일수록 지시를 더 정확히 따릅니다. 최적의 결과를 위해서는 간결한 쇼트(shot) 를 목표로 하세요. 프로젝트가 허용한다면, 8초짜리 한 클립을 생성하는 대신 4초짜리 두 클립을 만들어 편집 과정에서 연결하는 방식이 더 나은 결과를 줄 수 있습니다.

효과적인 프롬프트 구성 방법

명확한 프롬프트는 마치 스토리보드에 장면을 그리듯 하나의 샷을 묘사합니다. 카메라 구도를 명시하고, 피사계 심도(Depth of Field)를 언급하며, 동작을 단계별로 설명하고, 조명과 색감을 설정합니다. 주제(피사체)를 몇 가지 특징적인 세부 묘사로 고정하면 인식하기 쉬워지고, 단 하나의 현실적인 동작을 설정하면 장면의 흐름을 따라가기 더 쉽습니다.

하나의 프롬프트에 여러 개의 샷을 묘사하는 것도 가능합니다. 시퀀스를 포함해야 할 때 유용합니다. 다만, 각 장면의 블록은 명확히 구분해야 합니다. 즉, 한 번에 하나의 카메라 세팅, 하나의 피사체 동작, 하나의 조명 구성을 유지해야 합니다. 이렇게 하면 프로젝트의 성격에 따라 짧은 독립 클립을 생성할 수도 있고, 길고 연속적인 장면을 만들 수도 있습니다. 장면 하나하나를 창의적인 단위로 취급하면 편집 과정에서 이어 붙이거나 한 번에 시퀀스로 재생할 수 있습니다.

짧은 프롬프트는 모델에게 더 큰 창의적 자유를 부여합니다. 예기치 못한 결과를 기대해도 좋습니다.
반면 긴 프롬프트는 모델의 창의력을 제한합니다. 모델은 사용자의 지침을 따르려 하지만, 항상 완벽히 일치하지는 않을 수 있습니다.

다음은 짧은 프롬프트의 예시입니다.

“1990년대 다큐멘터리 스타일의 인터뷰 장면에서, 한 노년의 스웨덴 남성이 서재에 앉아 말한다. ‘젊었을 때가 아직도 기억나오.’”

이 프롬프트는 다음과 같은 이유로 잘 작동합니다.

“1990년대 다큐멘터리”는 영상의 스타일을 설정합니다. 모델은 이에 맞게 카메라 렌즈, 조명, 색보정 등의 요소를 선택합니다.
“한 노년의 스웨덴 남성이 서재에 앉아 있다”는 피사체와 배경을 간략히 설명해, 모델이 인물과 공간의 세부적인 모습을 창의적으로 해석할 여지를 남깁니다.
“그리고 말한다, ‘젊었을 때가 아직도 기억나오.’”는 대사를 설명합니다. Sora는 이를 비교적 정확히 따를 수 있습니다.

이 프롬프트는 요구사항을 충실히 반영한 영상을 안정적으로 생성할 것입니다. 그러나 세부 사항이 많이 비워져 있기 때문에 사용자가 구상한 장면과 완전히 일치하지는 않을 수 있습니다. 예를 들어, 프롬프트에는 시간대, 날씨, 의상, 분위기, 인물의 나이와 외형, 카메라 각도, 컷 구성, 세트 디자인 등의 요소가 명시되어 있지 않습니다. 이러한 세부 사항을 직접 기술하지 않는다면, Sora가 이를 임의로 구성하게 됩니다.

초정밀 프롬프트 구성

복잡하고 영화적인 장면을 만들고자 할 때는 일반적인 프롬프트 구조를 넘어, 영상의 룩(Look), 카메라 세팅, 색보정(Grading), 사운드 구성(Soundscape), 그리고 촬영 의도까지 전문적인 제작 용어로 구체화할 수 있습니다. 이는 감독이 촬영팀이나 시각효과(VFX) 팀에 지시를 내리는 방식과 유사합니다. 렌즈, 필터, 조명, 색보정, 움직임에 대한 세밀한 지시는 모델이 매우 구체적인 미학적 방향성에 맞추도록 돕습니다.

예를 들어, 시청자가 처음 인식하는 포인트,카메라 플랫폼과 렌즈, 조명의 방향, 색조 팔레트, 질감의 특징, 현실음(Diegetic Sound), 그리고 샷의 타이밍을 기술할 수 있습니다. 이 접근법은 IMAX 항공 촬영, 35mm 핸드헬드, 빈티지 16mm 다큐멘터리와 같은 실제 영화 촬영 스타일을 구현하거나, 여러 장면 간의 연속성을 유지해야 할 때 효과적입니다.

예시

형식 및 룩 (Format & Look)
길이 4초; 셔터 각도 180도; 65mm 필름 대비감을 모사한 디지털 촬영; 미세한 그레인; 반사광의 은은한 헤일레이션; 게이트 흔들림 없음.

렌즈 및 필터 (Lenses & Filtration)
32mm / 50mm 구면 단초점 렌즈; 블랙 프로미스트 1/4; 열차 창문 반사를 줄이기 위한 CPL(편광 필터) 약간 회전.

색보정 / 팔레트 (Grade / Palette)
하이라이트: 맑은 아침 햇살, 따뜻한 호박색 톤 리프트.
미드톤: 중립적인 밸런스, 그림자에 살짝 청록빛.
블랙: 부드럽고 중립적이며, 안개 질감 보존을 위한 약한 리프트.

조명 및 분위기 (Lighting & Atmosphere)
카메라 왼쪽에서 들어오는 자연광, 낮은 각도(오전 7시 30분).
반사판: 선로 쪽에서 4×4 울트라바운스 실버.
반대편 벽면에서 네거티브 필로 음영 보강.
실내등(Practical): 나트륨 플랫폼 조명, 약한 페이드 인.
대기(Atmos): 옅은 안개, 열차 배기가 빛줄기 속으로 스며듦.

장소 및 프레이밍 (Location & Framing)
도시 통근 플랫폼, 새벽.
전경: 노란 안전선, 벤치 위 커피컵.
중경: 안개 속 실루엣으로 서 있는 승객들.
배경: 정차 중인 열차.
간판이나 기업 로고 노출은 피할 것.

의상 / 소품 / 엑스트라 (Wardrobe / Props / Extras)
주인공: 30대 중반 여행자, 네이비 코트, 한쪽 어깨에 백팩, 손에는 느슨하게 잡은 휴대전화.
엑스트라: 차분한 색조의 출근객들, 자전거를 끄는 사람 한 명.
소품: 종이 커피컵, 여행용 캐리어, LED 출발 안내판(일반 목적지 표기).

사운드 (Sound)
현장음만 사용: 약한 철도 마찰음, 열차 제동음, 멀리서 들리는 희미한 안내방송(-20 LUFS), 낮은 환경 소음.
발소리, 종이 부스럭거림만 포함. 배경음악이나 인위적 효과음 없음.

최적화된 샷 리스트 (총 2개 / 4초)

0.00–2.40 — “Arrival Drift” (32mm, 숄더 마운트 슬로우 돌리 좌측 이동)
카메라가 플랫폼 표지판 가장자리를 스치며 이동. 얕은 심도로 중앙 프레임에 서 있는 여행자가 선로를 바라보는 모습이 드러남. 아침 햇살이 렌즈를 타고 퍼지며, 열차 헤드라이트가 안개 속에서 부드럽게 플레어.
목적: 공간과 분위기를 설정하고, 기대감을 암시.

2.40–4.00 — “Turn and Pause” (50mm, 느린 아크 인)
열차가 멈출 때 카메라가 어깨 너머로 아크 인. 여행자가 살짝 카메라 쪽으로 고개를 돌리며, 햇빛이 뺨과 휴대전화 화면에 부드럽게 반사됨. 눈이 보이지 않는 무언가를 향해 살짝 올라감.
목적: 최소한의 움직임으로 인물 중심의 감정 포인트 형성.

카메라 노트 (Why It Reads)
시선선을 낮게 유지하고 렌즈 축에 가깝게 두어 친밀감 강화.
열차 유리에서 발생하는 미세한 플레어는 미적 질감으로 활용.
미세한 핸드헬드 흔들림을 남겨 현실감 유지.
과도한 플레어로 실루엣을 깨뜨리지 말고, 피부 하이라이트의 자연스러운 감쇠 유지.

마무리 (Finishing)
사실감을 위한 미세한 필름 그레인 오버레이, 절제된 헤일레이션, 아침빛의 따뜻함과 그림자의 차가움을 분리한 LUT 적용.
믹스: 발소리보다 열차 및 환경음을 우선.
포스터 프레임: 여행자가 고개를 돌리는 중간, 황금빛 윤광, 배경 안개 속의 흐릿한 열차.

시각적 연출을 이끄는 단서

프롬프트를 작성할 때, 스타일(style)은 모델을 원하는 결과로 이끄는 가장 강력한 조정 장치 중 하나입니다. 예를 들어 “1970년대 영화”, “IMAX 규모의 서사적 장면”, “16mm 흑백 필름” 과 같이 전체적인 미학을 묘사하면, 그 자체로 영상의 시각적 톤이 설정되어 이후의 모든 요소에 영향을 줍니다. 스타일은 가능한 한 초반에 확립해야 모델이 전반에 걸쳐 일관되게 유지할 수 있습니다.

같은 세부 묘사라도 그것이 정제된 할리우드 드라마인지, 핸드헬드 스마트폰 영상인지, 빈티지 상업 광고인지에 따라 완전히 다르게 해석됩니다. 톤을 설정한 뒤에는 샷(shot), 행동(action), 조명(light) 의 구체적 요소를 덧입혀 완성도를 높입니다.

명확한 것이 좋습니다. “아름다운 거리” 같은 모호한 표현 대신 “젖은 아스팔트, 횡단보도 줄무늬, 네온사인 반사”라고 쓰세요. “빠르게 움직인다” 대신 “세 걸음 달려가 멈춰 선다”와 같이 구체적인 동작을 써야 합니다. 눈에 보이는 결과를 직접 가리키는 동사와 명사는 언제나 더 명확하고 일관된 출력을 제공합니다.

카메라의 방향과 구도(camera direction & framing)는 장면의 감정을 결정짓습니다. 높은 시점의 와이드 샷은 공간과 맥락을 강조하고, 눈높이의 클로즈업은 감정과 인물에 초점을 맞춥니다. 피사계 심도(Depth of Field)는 또 다른 층을 더합니다. 얕은 심도는 인물을 배경과 분리시켜 돋보이게 하고, 깊은 심도는 전경과 배경 모두를 선명하게 유지합니다. 조명 또한 분위기를 강하게 좌우합니다. 부드럽고 따뜻한 키 라이트(key light)는 따스하고 친근한 느낌을, 차가운 색감의 단일 강한 조명은 드라마틱한 긴장감을 만들어냅니다.

인물을 처음 등장시킬 때는 예측 불가능성을 염두에 두세요. 표현의 미묘한 차이가 인물의 정체성, 자세, 장면의 초점을 바꿀 수 있습니다. 각 샷마다 일관된 설명을 유지하고, 동일한 구절을 반복 사용해 연속성을 확보하며, 서로 충돌할 수 있는 묘사는 피해야 합니다.

약한 예시

카메라 샷: 영화적인 느낌

강한 예시

카메라 샷: 와이드 샷, 낮은 앵글
피사계 심도: 얕은 피사계 심도(피사체는 선명하고, 배경은 흐림)
조명과 색감: 따뜻한 백라이트, 부드러운 림 라이트

좋은 프레이밍(구도) 지시어의 예시:

와이드 확장 샷, 눈높이 시점
와이드 샷, 왼쪽에서 오른쪽으로 이동하며 추적
항공 와이드 샷, 약간 아래로 기운 각도
미디엄 클로즈업 샷, 뒤쪽에서 약간 비스듬한 각도

좋은 카메라 움직임(Camera motion) 지시어의 예시:

천천히 위로 틸팅하는 카메라
핸드헬드 ENG 카메라

움직임과 타이밍 제어

움직임은 가장 정확히 표현하기 어려운 요소 중 하나이므로 단순하게 유지하는 것이 중요합니다. 각 샷에는 하나의 명확한 카메라 움직임과 하나의 명확한 인물 동작만 포함시키세요. 동작은 단계(비트)나 횟수로 묘사할 때 가장 자연스럽습니다. 작은 걸음, 손짓, 일시정지 같은 요소를 시간의 흐름에 맞게 배치하면 장면이 훨씬 현실감 있게 느껴집니다.

“배우가 방을 가로질러 걷는다.”는 구체적인 정보가 거의 없습니다. 반면 “배우가 창가로 네 걸음을 걸어가 멈춘 뒤, 마지막 1초에 커튼을 젖힌다.”와 같이 표현하면 타이밍이 명확하고 모델이 재현하기 쉬운 프롬프트가 됩니다.

약한 예시

“배우가 방을 가로질러 걷는다.”

강한 예시

“배우가 창가로 네 걸음을 걸어가 멈춘 뒤, 마지막 1초에 커튼을 젖힌다.”

조명과 색상 일관성 유지

조명은 행동과 배경만큼이나 장면의 분위기를 결정짓는 핵심 요소입니다. 프레임 전반에 퍼진 확산광(diffuse light) 은 차분하고 중립적인 인상을 주는 반면, 하나의 강한 광원은 강한 대비와 긴장감을 만들어냅니다.

여러 클립을 이어 편집하려면, 조명의 논리적 일관성을 유지하는 것이 자연스러운 편집의 핵심입니다. 조명의 질감(quality)과 이를 보완하는 색상 기준(color anchors)을 함께 기술하세요. “밝은 방”과 같은 포괄적 표현 대신, “부드러운 창가 빛에 따뜻한 스탠드 조명, 복도에서 들어오는 차가운 빛이 가장자리를 감싸는 장면”처럼 빛의 종류와 방향, 색조의 조합을 구체적으로 써야 합니다. 또한 3~5가지 색상을 지정하면 여러 샷을 이어붙일 때 색감의 안정성과 통일성을 유지할 수 있습니다.

약한 예시

조명과 색감: “밝은 방”

강한 예시

조명과 색감: 부드러운 창가 빛과 따뜻한 스탠드 조명, 복도에서 들어오는 차가운 가장자리 빛
고정 색상: 호박색, 크림색, 월넛 브라운

이미지 입력으로 더 정밀하게 제어하기

장면의 구도와 스타일을 더욱 세밀하게 제어하려면, 이미지 입력(image input)을 시각적 참고자료로 사용할 수 있습니다. 이때는 사진, 디지털 아트워크, 또는 AI로 생성된 시각 자료를 활용할 수 있습니다. 이 방법은 인물 디자인, 의상, 세트 장식, 전체적인 미적 분위기 등의 요소를 고정(anchor)시킵니다. 그렇게 모델은 이미지를 첫 프레임의 기준으로 삼고, 그다음 장면 전개는 텍스트 프롬프트가 결정합니다.

사용 방법(How to use it)

POST /videos 요청에 input_reference 매개변수로 이미지 파일을 포함합니다.

이미지는 목표 영상의 해상도(size)와 동일해야 합니다.
지원되는 파일 형식: image/jpeg, image/png, image/webp.

입력한 이미지(왼쪽)와 소라로 만든 영상(오른쪽). 프롬프트: “그녀는 미소와 함께 돌아서며, 천천히 화면 밖으로 이동한다”

입력한 이미지(왼쪽)와 소라로 만든 영상(오른쪽). 프롬프트: “냉장고 문이 열린다. 귀엽고 통통한 몬스터가 밖으로 나온다.”

실험 팁

준비된 참고자료가 없다면, 오픈AI의 이미지 생성 모델을 활용해 직접 만들어 볼 수 있습니다. 이 모델을 사용하면 배경 환경이나 장면 디자인을 빠르게 생성할 수 있으며, 이후 해당 이미지를 Sora의 참고자료로 전달해 활용할 수 있습니다. 미적 스타일을 실험하거나, 영상 제작을 위한 아름다운 출발점을 손쉽게 만드는 효과적인 방법입니다.

대사와 오디오(Dialogue and Audio)

대사는 반드시 프롬프트 안에 직접 기술해야 합니다. 텍스트 설명(시각적 묘사) 아래에 별도의 블록으로 배치해, 모델이 화면 묘사와 대사 구간을 명확히 구분하도록 합니다. 대사는 간결하고 자연스럽게, 그리고 한두 문장 단위의 짧은 교환으로 유지하는 것이 좋습니다. 이렇게 하면 영상의 길이에 맞춰 리듬감 있고 자연스러운 타이밍을 얻을 수 있습니다.

등장인물이 여러 명이라면, 각 인물의 이름을 일관되게 표기하고 교대로 대사를 배치하세요. 이 방식은 모델이 인물별 제스처와 표정을 정확히 연결하는 데 도움을 줍니다.

또한 리듬과 시간 배분을 고려해야 합니다. 4초짜리 장면은 한두 번의 짧은 대화 교환에 적합하며, 8초짜리 클립에서는 몇 문장 더 주고받는 대화가 가능합니다. 한편 너무 긴 연설이나 복잡한 대사는 타이밍이 맞지 않거나 호흡을 깨뜨릴 가능성이 높습니다.

만약 장면에 고요함을 넣으면, “멀리서 들려오는 교통 소음(hiss of distant traffic)”이나 “딱 하고 울리는 소리(a crisp snap)”처럼 짧은 음향 단서만 제시해도 장면의 리듬감을 표현할 수 있습니다. 온전한 사운드트랙이 아니라 리듬 신호(rhythm cue) 정도로 이해하면 됩니다.

대사 포함 프롬프트 예시

창문 하나 없는 좁고 답답한 방. 벽은 오래된 재빛을 띠고 있다. 천장에서 맨전구 하나가 매달려, 중앙의 긁힌 금속 탁자 위로 빛을 떨어뜨린다. 두 개의 의자가 마주 보고 놓여 있다. 한쪽에는 트렌치코트를 의자에 걸친 채 앉은 형사, 눈빛은 매섭고 깜박이지 않는다. 맞은편에는 용의자, 담배 연기가 천천히 천장으로 올라간다. 공기는 무겁고, 들리는 것은 천장의 희미한 전등 소리뿐이다.

대사(Dialogue):
- 형사: “넌 거짓말을 하고 있어. 침묵 속에서도 그게 들려.”
- 용의자: “아니면 그냥, 말하기가 지겨운 걸지도.”
- 형사: “어쨌든, 오늘 밤이 가기 전엔 말하게 될 거야.”

배경음 묘사 예시

에스프레소 머신의 윙윙거림과 낮은 목소리의 웅성거림이 배경음을 이룬다.

리믹스 기능을 활용한 반복 개선

리믹스(Remix)는 대대적 도박이 아니라 미세 조정을 위한 기능입니다. 한 번에 하나씩 통제된 변경을 하고, 무엇을 바꾸는지 분명히 적으세요: “같은 샷, 렌즈만 85mm로 교체”, 또는 “같은 조명, 새 팔레트: 청록(teal), 샌드(sand), 러스트(rust)”. 결과물이 의도에 가까워졌다면 그 결과를 참고자료로 고정해 두고, 수정점만 서술하세요. 이렇게 하면 이미 잘 작동하는 요소들은 그대로 잠금됩니다.

만약 장면이 계속 빗나간다면, 과감히 덜어내세요: 카메라는 고정하고, 동작은 단순화하며, 배경을 정리합니다. 원하는 대로 작동하기 시작하면, 단계적으로 복잡도를 겹겹이 더할 수 있습니다.

입력한 원본 영상(왼쪽)과 추가로 개선한 영상(오른쪽). 프롬프트: “몬스터의 색상을 오렌지로 바꾼다”

입력한 원본 영상(왼쪽)과 추가로 개선한 영상(오른쪽). 프롬프트: “곧바로 두 번째 몬스터가 오른쪽에서 나온다”

프롬프트 템플릿과 예시

프롬프트 구조 (Prompt Structure)

효과적인 프롬프트를 작성하는 한 가지 방법은, 모델이 참고해야 할 정보의 종류를 구분하여 구성하는 것입니다. 물론 이것이 성공을 반드시 보장하는 만능 공식은 아닙니다. 다만, 명확한 틀(framework) 을 제공하고 일관성 있게 작성하는 데 큰 도움이 됩니다. 모든 세부 사항을 반드시 포함할 필요는 없습니다. 장면에 중요하지 않은 요소는 과감히 생략해도 됩니다.

오히려 일부 요소를 열린 상태로 남겨두면 모델이 더 창의적으로 해석할 수 있습니다. 모든 시각적 요소를 너무 구체적으로 제한하지 않을수록, 모델이 예상치 못하지만 아름다운 결과물을 만들어낼 여지가 커집니다. 세밀하게 묘사된 프롬프트는 더 일관되고 통제된 결과를 주며, 간결한 프롬프트는 다양하고 신선한 결과물을 얻는 데 효과적입니다.

상세 묘사형 프롬프트 템플릿(Descriptive Prompt Template)

[일상적인 언어로 장면을 서술합니다. 등장인물, 의상, 배경, 날씨 등 세부 요소를 묘사하세요. 원하는 영상의 이미지와 최대한 일치하도록 설명합니다.]
촬영 구성:
카메라 샷: [구도와 앵글, 예: 와이드 확장 샷, 눈높이 시점]
분위기: [전체적인 분위기, 예: 영화적이고 긴장된 / 장난스럽고 서스펜스 있는 / 고급스럽고 기대감 있는]
행동:
- [행동 1: 명확하고 구체적인 동작 또는 제스처]
- [행동 2: 클립 내에서 구분되는 또 다른 동작]
- [행동 3: 추가 동작 또는 대사]
대사:
[장면에 대사가 있다면 짧고 자연스러운 문장을 추가합니다. 또는 ‘행동’ 목록에 함께 넣을 수도 있습니다. 영상 길이에 맞도록 간결하게 유지하세요.]

프롬프트 예시

예시 1

스타일: 손으로 채색한 2D/3D 하이브리드 애니메이션. 부드러운 붓질 질감과 따뜻한 텅스텐 조명, 촉감이 느껴지는 스톱모션 특유의 질감을 담고 있습니다. 미드 2000년대 동화풍 애니메이션의 아늑하고 불완전한 기계적 매력을 떠올리게 합니다. 은은한 수채화 번짐과 회화적인 질감, 따뜻함과 차가움이 균형 잡힌 색보정, 사실적인 애니메이션 느낌을 주는 필름 모션 블러가 특징입니다.
정돈되지 않은 작업실 안, 선반에는 기어와 볼트, 낡은 청사진이 가득 쌓여 있다. 중앙의 나무 벤치 위에는 작은 둥근 로봇이 앉아 있다. 찌그러진 몸체에는 서로 다른 색의 철판과 오래된 페인트층이 덧대어져 있다. 커다란 푸른빛 눈이 깜빡이며, 로봇은 윙윙거리는 전구를 불안하게 만지작거린다. 공기에는 기계의 미세한 윙윙거림이 섞여 있고, 창밖에서는 빗방울이 톡톡 떨어지며, 시계 초침 소리가 고요히 흐른다.
촬영 구성:
카메라: 미디엄 클로즈업, 천장에 걸린 공구를 통한 부드러운 패럴랙스와 함께 천천히 줌 인
렌즈: 가상 35mm 렌즈; 배경의 혼잡함을 부드럽게 날리는 얕은 피사계 심도
조명: 천장의 실내 조명에서 따뜻한 메인광, 창문에서 들어오는 차가운 빛으로 대비감 연출
분위기: 부드럽고 동화적인 분위기, 약간의 긴장감
행동:
- 로봇이 전구를 톡 두드린다. 스파크가 튄다.
- 놀란 로봇이 전구를 떨어뜨리고 눈이 커진다.
- 전구가 슬로모션으로 떨어지며, 로봇이 간신히 잡아낸다.
- 로봇의 가슴에서 김이 ‘푸쉬’ 하고 새어나온다 — 안도와 자부심이 함께 느껴진다.
- 로봇(작게): “거의 잃을 뻔했네… 하지만 해냈어!”
배경음:
비 내리는 소리, 시계 초침, 부드러운 기계음, 약한 전구의 지직거림.

예시 2

스타일: 1970년대 로맨틱 드라마. 35mm 필름으로 촬영된 듯한 자연스러운 플레어, 부드러운 초점, 따뜻한 헤일레이션이 특징이다. 약간의 게이트 위브(gate weave)와 미세한 핸드헬드 흔들림이 빈티지한 친밀감을 준다. 코닥(Kodak) 필름 감성의 따뜻한 색보정, 전구 주변의 은은한 헤일레이션, 필름 그레인과 부드러운 비네팅이 시대적 질감을 더한다.
황금빛이 스며드는 오후, 벽돌 아파트 옥상이 작은 무대로 변한다. 흰 시트가 걸린 빨랫줄이 바람에 흔들리며 마지막 햇살을 받는다. 머리 위로 엇갈린 전구 줄이 희미하게 빛난다. 붉은 실크 드레스를 입은 젊은 여자가 맨발로 춤을 춘다. 그녀의 곱슬머리는 지는 빛에 반짝인다. 맞은편에서 남자는 소매를 걷어붙이고 멜빵을 느슨하게 매단 채 손뼉을 치며 환하게 웃는다. 아래에서는 도시의 경적, 지하철의 진동, 멀리서 들려오는 웃음소리가 배경을 이룬다.
촬영 구성:
카메라: 미디엄 와이드 샷, 눈높이에서 천천히 돌리 인(dolly-in)
렌즈: 40mm 구면 렌즈; 얕은 피사계 심도로 커플을 스카이라인에서 분리
조명: 황금빛 자연광, 텅스텐 반사광으로 보조; 페어리 전구로 가장자리에 빛 강조
분위기: 향수를 불러일으키는, 다정하고 영화적인 분위기
행동:
- 여자가 빙글 돌자, 드레스 자락이 햇빛을 받아 부드럽게 퍼진다.
- 여자(웃으며): “봐요? 오늘은 도시도 우리랑 함께 춤추네요.”
- 남자가 다가와 그녀의 손을 잡고, 그림자 속으로 살짝 디딤춤을 한다.
- 남자(미소 지으며): “그건 당신이 리드하니까.”
- 시트가 화면을 스치며 스카이라인을 잠시 가렸다가 다시 걷힌다.
배경음:
자연스러운 배경음만 사용: 약한 바람, 천의 파도치는 소리, 거리의 소음, 멀리서 들리는 음악. 추가된 배경음악은 없음.

마치며

지금까지 오픈AI의 공식 Sora 프롬프트 가이드를 봤습니다. 핵심은 단순합니다. “멋진 장면을 만들어줘”가 아니라, 무엇을 어떻게 보여주어야 하는지를 명확히 전달하라는 것이죠. 그러니까 감독, 촬영감독, 미술감독의 역할을 모두 수행하는 프롬프트를 만들어야 합니다. 이를 익히면 단 한 줄의 프롬프트로도 디테일하고 일관된 결과를 얻을 수 있습니다.

Sora와 GPT-5, 그리고 앞으로 등장할 다양한 모델들은 점점 더 뛰어난 표현력을 갖출 것입니다. 하지만 그 성능을 진정으로 끌어내는 것은 여전히 사용자의 프롬프트 설계고요. “AI가 알아서 잘 해주길” 기다리기보다, 더 나은 프롬프트를 설계하는 연습으로 원하는 영상을 얻어 보세요.

<원문>

Sora 2 prompting guide