AI 동영상을 위한 JSON 프롬프팅: Veo 3.1과 Sora 2가 ‘무작위 생성’을 대체하는 방법
2025/12/03

AI 동영상을 위한 JSON 프롬프팅: Veo 3.1과 Sora 2가 ‘무작위 생성’을 대체하는 방법

퍼포먼스 마케팅, 콘텐츠 제작, 또는 크리에이티브 전략 분야에서 일하신다면 다음과 같은 패턴을 경험해보셨을 겁니다.

  • AI 동영상 도구에 기발한 프롬프트를 입력합니다.
  • 생성(Generate) 버튼을 누릅니다.
  • "영화 같은, 4K, 제품 히어로 샷"이 "흐릿하고 흔들리는 엉망진창 영상"이 되지 않기를 간절히 바랍니다.

Veo 3.1 동영상 생성기Sora 2 동영상 생성기 같은 생성형 모델 덕분에 영화 같은 동영상을 누구나 만들 수 있게 되었습니다. 하지만 기본 워크플로우는 여전히 많은 팀들이 조용히 "프롬프트 앤 프레이(prompt and pray, 입력하고 기도하기)"라고 부르는 방식, 즉 텍스트 한 단락을 던져주고 모델이 의도를 알아맞히기를 바라는 방식에 머물러 있습니다.

이런 추측 게임은 일회성 실험에는 괜찮습니다. 하지만 다음의 경우에는 완전히 무너집니다.

  • 대규모 A/B 테스트를 실행할 때,
  • 수십 개의 자산(asset)에 걸쳐 브랜드 일관성이 필요할 때,
  • 생성을 한 번 더 할 때마다 시간, 크레딧, 예산이 소모될 때.

이것이 바로 JSON 프롬프팅이 판도를 바꾸는 지점입니다.

모호한 텍스트 대신 subject(피사체), camera(카메라), lighting(조명), duration(길이), audio(오디오), 심지어 aspectRatio(종횡비)와 같은 구조화된 필드를 정의하여 모델이 명확한 요약을 따르도록 합니다. JsonToVideo는 이러한 아이디어를 바탕으로 구축되었습니다. 바로 **구조화된 JSON 프롬프트(structured JSON prompts)**를 통해 Veo 3.1이나 Sora 2로 예측 가능하고 브랜드에 부합하는 클립을 생성하는 것입니다.

Compare Model

자유 형식 AI 프롬프트가 확장에 실패하는 이유

일반적인 AI 동영상 생성기(ai_video_generator) 워크플로우는 다음과 같습니다.

"밤의 도쿄를 달리는 미래형 스포츠카, 네온 조명, 영화 같은 조명, 4K, 제품 스타일 샷."

모델은 다음의 모든 것을 추측해야 합니다.

  • 정확한 피사체는 무엇인가?
  • 카메라는 고정인가, 핸드헬드인가, 트래킹인가, 아니면 드론인가?
  • 렌즈는 광각, 표준, 망원 중 무엇인가?
  • 이것은 히어로 제품 광고인가, 아니면 분위기 영상인가?
  • 조명은 분위기 있는가, 상업적인가, 평면적인가, 양식화되어 있는가?

형용사 하나만 바꿔도 완전히 다른 동영상이 나오는 경우가 많습니다. 유튜브 쇼츠 제작자에게는 허용될 수 있지만, 성과 목표가 있는 광고주에게는 악몽과도 같습니다.

문제점:

  1. 성공적인 샷을 안정적으로 재현할 수 없습니다.
  2. A/B 테스트가 무작위가 되어 무엇이 변경되었는지 알 수 없습니다.
  3. 크리에이티브를 3개에서 30개로 확장하는 것이 수동 프롬프트 수정 지옥으로 변합니다.

자유 형식 프롬프트는 탐색에는 좋습니다. 하지만 생산 시스템으로서는 끔찍합니다.

AI 동영상을 위한 JSON 프롬프팅이란 무엇인가요?

JSON 프롬프팅은 동영상 요약을 문단이 아닌 구조화된 데이터로 취급합니다.

이런 방식 대신:

"레이스 트랙에서 드리프트하는 빨간 스포츠카, 영화 같은, 따뜻한 햇살, 8초 광고, 16:9, 경쾌한 음악."

다음과 같은 방식으로 전환합니다:

{
  "subject": "A red sports car drifting on a racetrack corner",
  "camera": "Low-angle tracking shot following behind the car",
  "lighting": "Golden hour, warm sunlight, long shadows",
  "style": "Cinematic, crisp, high contrast",
  "durationSeconds": 8,
  "aspectRatio": "16:9",
  "audio": "Energetic electronic track with engine sounds"
}

이제 모델은 추측할 필요가 없습니다.

  • Subject = 화면에 무엇이 있는지(피사체).
  • Camera = 시청자가 그것을 어떻게 경험하는지(앵글 및 움직임).
  • Lighting & style = 감정적 톤.
  • Duration & aspect ratio = 포맷 제약 조건.

JsonToVideo와 같은 플랫폼은 이를 한 단계 더 발전시켜, 시각적 편집기, 재사용 가능한 JSON 동영상 템플릿(json_video_templates), 그리고 동일한 스키마를 공유하는 듀얼 모델 설정(Veo 3.1 및 Sora 2)으로 JSON 프롬프트를 래핑합니다.

Veo 3.1 및 Sora 2를 위한 핵심 JSON 필드

Subject, Camera, Lighting

모든 팀이 자신만의 스키마를 갖게 되지만, 대부분의 고성능 설정은 몇 가지 핵심 필드를 공유합니다.

1. subject: 실제로 누구를 또는 무엇을 촬영하는가?

이것은 주인공입니다:

  • 테이블 위의 제품,
  • 달리는 운동선수,
  • 도시 스카이라인,
  • 카메라에 대고 말하는 사람.

피사체를 분리함으로써 카메라, 조명, 스타일을 반복 수정하는 동안 정체성과 기하학적 구조를 안정적으로 유지할 수 있습니다.

2. camera: 피사체를 어떻게 보는가?

텍스트 프롬프트는 종종 카메라 지시를 나중으로 미루곤 합니다. JSON 프롬프팅은 이를 명시하도록 강제합니다.

  • camera: "Drone establishing shot, slow push-in over the city" (드론 이스태블리싱 샷, 도시 위로 천천히 푸시인)
  • camera: "Handheld, eye-level, gentle side-to-side movement" (핸드헬드, 눈높이, 부드러운 좌우 움직임)
  • camera: "Macro close-up, shallow depth of field, slow dolly across the product" (매크로 클로즈업, 얕은 피사계 심도, 제품을 가로지르는 느린 달리)

특히 Veo 3.1 동영상 생성기는 명시적인 카메라 언어에 강하게 반응합니다. 이를 스키마의 촬영(cinematography) 필드라고 생각하세요.

3. lighting & style: 분위기, 장르, 완성도

조명과 스타일은 콘텐츠를 해치지 않으면서 감정을 변화시키기 때문에 별도의 필드로 다룰 가치가 있습니다.

  • lighting: "Soft daylight, clean studio, minimal shadows" (부드러운 주광, 깨끗한 스튜디오, 최소한의 그림자)
  • lighting: "Cyberpunk neon, strong rim lights, dark background" (사이버펑크 네온, 강한 림 라이트, 어두운 배경)
  • style: "Slick ecommerce ad, high contrast" (매끄러운 이커머스 광고, 높은 대비)
  • style: "UGC-style vertical video, natural light, slight grain" (UGC 스타일 세로 영상, 자연광, 약간의 그레인)

동일한 '피사체 + 카메라' 조합에 수십 가지 조명/스타일 조합을 실행하여 어떤 것이 가장 전환율이 높은지 확인할 수 있습니다.

4. durationSeconds & aspectRatio: 플랫폼 적합성

문제는 아실 겁니다: 16:9 유튜브 광고를 틱톡용 9:16으로 자르면 끔찍해 보인다는 것을요.

JSON을 사용하면 길이와 프레임을 인코딩할 수 있습니다.

  • durationSeconds: 8 또는 12
  • aspectRatio: "16:9", "9:16", 또는 "1:1"

JsonToVideo의 엔진은 이 필드들을 사용하여 또 다른 프롬프트를 작성할 필요 없이, 동일한 템플릿으로 유튜브, 틱톡, 릴스 또는 인피드(in-feed) 게재 위치를 타겟팅합니다.

5. audio and brand constraints

마지막으로, 사운드와 브랜드를 고정할 수 있습니다.

  • audio: "Energetic trap beat, 100 BPM, no vocals" (에너지 넘치는 트랩 비트, 100 BPM, 보컬 없음)
  • audio: "Calm ambient pad, subtle risers" (차분한 앰비언트 패드, 미묘한 라이저)
  • brandLock.logoPlacement: "bottom-right" (로고 위치: 우측 하단)
  • brandLock.colorPalette: "red, black, white" (컬러 팔레트: 레드, 블랙, 화이트)

이것이 "괜찮은 데모"와 "출고 가능한 광고"의 차이입니다.

단계별 가이드: 첫 번째 Veo 3.1 JSON 프롬프트 (제품 광고, 16:9)

실제로 복사할 수 있는 형태로 만들어 보겠습니다.

1. 간단한 스키마로 시작하기

Veo 3.1 제품 광고를 위한 최소 템플릿은 다음과 같습니다.

{
  "model": "veo-3.1",
  "aspectRatio": "16:9",
  "durationSeconds": 8,
  "subject": "",
  "camera": "",
  "lighting": "",
  "style": "",
  "audio": "",
  "brandLock": {
    "logoPlacement": "bottom-right",
    "colorPalette": ""
  }
}

2. 구체적인 시나리오 채우기

이제 무선 이어버드를 홍보한다고 가정해 보겠습니다.

{
  "model": "veo-3.1",
  "aspectRatio": "16:9",
  "durationSeconds": 8,
  "subject": "A pair of matte black wireless earbuds on a reflective glass surface",
  "camera": "Slow dolly-in from medium shot to close-up, slight parallax around the product",
  "lighting": "Dark studio with sharp white rim lights and subtle reflections",
  "style": "Premium tech commercial, crisp, high contrast, 1080p-ready",
  "audio": "Modern electronic track with deep bass hits synced to transitions",
  "brandLock": {
    "logoPlacement": "bottom-right",
    "colorPalette": "black, white, electric blue"
  }
}

3. JsonToVideo에서 실행하기

JsonToVideo에서:

  1. JSON 프롬프트 편집기를 엽니다.
  2. 템플릿을 붙여넣고 brandLockstyle을 브랜드에 맞게 조정합니다.
  3. 모델로 Veo 3.1을 선택하고 생성합니다.

이제 깨지기 쉬운 일회성 프롬프트 대신 반복 가능하고 편집 가능한 레시피를 갖게 되었습니다.

예제 2: 세로형 UGC 스타일 소셜 광고 (Sora 2, 9:16)

이제 Sora 2 동영상 생성기를 사용하여 UGC 스타일의 틱톡이나 릴스 클립을 위한 아이디어를 적용해 보겠습니다.

{
  "model": "sora-2",
  "aspectRatio": "9:16",
  "durationSeconds": 10,
  "subject": "A young woman recording a selfie video talking about her new skincare serum in a cozy bathroom",
  "camera": "Handheld, eye-level, slight natural shake, occasional micro reframing",
  "lighting": "Warm indoor lighting from bathroom mirror, soft shadows, natural skin tones",
  "style": "UGC vertical ad, feels like a real phone camera clip, light grain",
  "audio": "Natural voiceover with subtle background music at low volume",
  "callToAction": "On-screen text: 'Try it for 30 days' appearing near the end"
}

이것은 여전히 구조화되어 있지만, Veo 3.1 제품 광고보다는 의도적으로 덜 다듬어진 느낌입니다. Sora 2에게 다음과 같이 지시하는 것입니다.

  • 실제 사람의 셀카처럼 느껴지게 하라,
  • 움직임을 솔직하고 약간 흔들리게 유지하라,
  • CTA(행동 유도 문구)를 무작위가 아닌 화면상에 배치하라.

예제 3: 제품 사진을 활용한 이미지 투 비디오 JSON 모션

JsonToVideo는 스틸 이미지를 업로드하고 JSON을 추가하여 움직임을 제어하는 이미지 투 비디오(image-to-video)도 지원합니다.

강력한 제품 사진이 이미 있고 간단한 히어로 모션을 원한다고 상상해 보세요.

{
  "mode": "image-to-video",
  "imageUrl": "https://your-cdn.com/images/serum-bottle.png",
  "model": "veo-3.1",
  "durationSeconds": 10,
  "aspectRatio": "9:16",
  "cameraPath": "Start on medium shot of the bottle, then slow dolly-in and small clockwise arc around the product",
  "motionIntensity": "medium",
  "pacing": "steady, no sudden jumps",
  "lighting": "Clean studio light, white background, soft reflections on glass",
  "style": "Minimalist ecommerce ad, focus on clarity and label readability",
  "audio": "Soft ambient background bed, no vocals"
}

이는 JsonToVideo의 이미지 투 비디오 기능이 "한 단계로 사진을 영상으로(Photo to Motion in One Step)" 및 "JSON 모션 컨트롤"을 설명하는 방식과 일치합니다. 이미지를 제공하고 Veo 3.1 또는 Sora 2를 선택한 다음, 모델이 좋은 팬(pan)이나 줌(zoom)을 선택하기를 바라는 대신 JSON을 사용하여 카메라 경로와 속도를 조정합니다.

단일 클립에서 프로그래매틱 크리에이티브로

JsonToVideo Editor

JSON 프롬프팅의 진정한 힘은 하나의 프롬프트가 조금 더 나아 보인다는 것이 아닙니다. 핵심은 다음과 같습니다.

  1. 프롬프트를 템플릿으로 저장할 수 있고,
  2. 몇 가지 필드(subject, colorPalette, callToAction)만 교체하여,
  3. 프로그래밍 방식으로 수십 또는 수백 가지 변형을 생성할 수 있다는 점입니다.

예를 들어:

camera, lighting, style, durationSeconds, aspectRatio는 고정합니다.

제품 스프레드시트를 반복합니다:

  • subject: "콘크리트 바닥 위의 빨간 러닝화"
  • subject: "바위 길 위의 검은색 트레일화"
  • subject: "나무 책상 위의 흰색 라이프스타일 스니커즈"

또는 A/B 테스트를 위해 callToAction만 변경합니다:

  • "오늘 무료 배송"
  • "30일 동안 체험해 보세요"
  • "번들 구매 시 20% 할인"

이것이 바로 JsonToVideo가 설계된 목적입니다. 구조화된 데이터를 사용하여 매 버전마다 수동으로 다시 프롬프트를 작성하지 않고도 영화 같은 클립으로 변환하는 것입니다.

광고주가 주목하는 이유: 품질, 권리, 포맷

무료 도구와 일회성 데모는 취미용으로는 괜찮습니다. 하지만 실제 캠페인을 위해 팀은 다음 사항을 고려합니다.

  • 광고에서도 유지되는 해상도 – JsonToVideo는 최신 디스플레이에서 깨끗하게 보이는 1080p급 결과물을 중심으로 구축되었습니다.
  • 워터마크 없음 – 도구가 아닌 브랜드가 프레임을 소유해야 합니다.
  • 상업적 사용 권한 – 법무팀이 당황하지 않도록 합니다.
  • 다양한 종횡비 – 랜딩 페이지용 16:9, 틱톡/릴스용 9:16을 동일한 템플릿으로 생성합니다.
  • 예측 가능한 비용 – Veo 3.1 및 Sora 2 렌더링 볼륨에 명확하게 매핑되는 크레딧 기반 가격 책정.

JSON 프롬프팅은 단순히 동영상을 더 보기 좋게 만드는 것뿐만 아니라, 전체 파이프라인을 측정 가능하고 반복 가능하게 만듭니다.

JsonToVideo가 여러분의 스택에 적합한 이유

JsonToVideo는 프롬프트를 코드처럼 다루고자 하는 팀을 위해 특별히 구축되었습니다.

  • Veo 3.1 및 Sora 2를 위한 구조화된 JSON 프롬프트
  • 재사용 가능한 샷과 캠페인을 위한 템플릿 라이브러리
  • 강력한 사진이 이미 있을 때 사용하는 JSON 모션 컨트롤이 포함된 이미지 투 비디오
  • 개인 크리에이터부터 대행사 및 사내 팀까지 확장 가능한 크레딧 기반 가격 책정

시각적으로 시작하여 편집기가 JSON을 생성하게 하거나, 이미 익숙하다면 원시 JSON으로 바로 넘어갈 수도 있습니다.

다음 단계: 추측을 멈추고 감독을 시작하세요

여전히 한 줄짜리 프롬프트를 작성하며 행운을 빌고 있다면, 돈과 정신 건강을 낭비하고 있는 것입니다.

이 글을 실제 워크플로우로 전환하는 방법은 다음과 같습니다.

  1. JSON 프롬프트 편집기 열기: 프리셋에서 시작한 다음 subject, camera, lighting, durationSeconds, aspectRatio를 추가합니다.
  2. 위의 템플릿 중 하나 붙여넣기: 제품에 맞게 subject, brandLock, callToAction을 사용자 지정합니다.
  3. Veo 3.1 vs Sora 2 테스트: 빠른 크리에이티브 탐색에는 Sora 2를 사용하고, 확정된 컨셉은 Veo 3.1로 고정하여 프로덕션 품질로 실행합니다.
  4. 데이터로 확장: 전환율이 높은 JSON 템플릿을 확보했다면, 이를 스프레드시트나 CMS에 연결하여 JSON 동영상 생성을 대규모로 실행합니다.

창의성을 포기할 필요는 없습니다. 단지 기도를 멈추고 감독을 시작하면 됩니다.

뉴스레터

커뮤니티에 합류하세요

최신 소식과 업데이트를 이메일로 받아보세요