AI動画生成におけるJSONプロンプティング:Veo 3.1とSora 2が「運任せのプロンプト」を変える方法
2025/12/03

AI動画生成におけるJSONプロンプティング:Veo 3.1とSora 2が「運任せのプロンプト」を変える方法

パフォーマンスマーケティング、コンテンツ制作、あるいはクリエイティブ戦略の仕事をしているなら、このパターンに見覚えがあるはずです。

  • 気の利いたプロンプトをAI動画ジェネレーターに入力する。
  • 「生成」ボタンを押す。
  • 「シネマティック、4K、製品のヒーローショット」が「手ブレのひどいぼやけたカオス」にならないよう、指をクロスして祈る。

Veo 3.1Sora 2のような生成モデルは、シネマティックな動画を身近なものにしました。しかし、デフォルトのワークフローは依然として、多くのチームが密かに「運任せのプロンプト(prompt and pray)」と呼ぶものです。つまり、テキストの段落を放り込み、モデルが意図を汲み取ってくれることを祈るのです。

その推測作業は、1回限りの実験なら問題ありません。しかし、以下のような状況では完全に破綻します。

  • 大規模なA/Bテストを実施している場合。
  • 数十のアセットにわたってブランドの一貫性が必要な場合。
  • 生成のたびに時間、クレジット、予算が消費される場合。

ここで、JSONプロンプティングが状況を一変させます。

曖昧なテキストの代わりに、subject(被写体)、camera(カメラ)、lighting(照明)、duration(長さ)、audio(音声)、さらには aspectRatio(アスペクト比)といった構造化されたフィールドを定義し、モデルに明確な指示書(ブリーフ)に従わせるのです。JsonToVideoはこの考え方に基づいて構築されており、構造化されたJSONプロンプトを使用して、Veo 3.1やSora 2で予測可能かつブランドに沿ったクリップを生成します。

モデルの比較

なぜ自由形式のAIプロンプトはスケールしないのか

一般的なAI動画ワークフローは次のようになります。

「夜の東京を走る未来的なスポーツカー、ネオンライト、シネマティックな照明、4K、製品スタイルのショット。」

モデルは以下のすべてを推測しなければなりません。

  • 正確な被写体は何か?
  • カメラは固定か、手持ちか、トラッキングか、ドローンか?
  • レンズは広角か、標準か、望遠か?
  • これは製品のヒーロー広告なのか、ムード重視の作品なのか?
  • 照明はムーディーか、コマーシャル風か、フラットか、様式化されているか?

形容詞を1つ変えるだけで、完全に異なる動画になってしまうことがよくあります。YouTubeショートを作るクリエイターにとっては許容範囲かもしれませんが、パフォーマンス目標を持つ広告主にとっては悪夢です。

課題点:

  1. 成功したショットを確実に再現できない。
  2. 何が変わったのか分からないため、A/Bテストがランダムになる。
  3. クリエイティブを3つから30にスケールしようとすると、手作業でのプロンプト調整地獄に陥る。

自由形式のプロンプトは探索には適していますが、制作システムとしては最悪です。

AI動画におけるJSONプロンプティングとは?

JSONプロンプティングは、動画のブリーフ(指示書)を段落ではなく、構造化データとして扱います。

これの代わりに:

「レーストラックをドリフトする赤いスポーツカー、シネマティック、暖かい日差し、8秒の広告、16:9、アップテンポな音楽。」

次のような形式に移行します:

{
  "subject": "レーストラックのコーナーをドリフトする赤いスポーツカー",
  "camera": "車の後方を追尾するローアングルのトラッキングショット",
  "lighting": "ゴールデンアワー、暖かい日差し、長い影",
  "style": "シネマティック、鮮明、高コントラスト",
  "durationSeconds": 8,
  "aspectRatio": "16:9",
  "audio": "エンジン音入りのエネルギッシュなエレクトロニックトラック"
}

これにより、モデルは推測する必要がなくなります。

  • Subject = 画面に映るもの。
  • Camera = 視聴者がそれをどう体験するか。
  • Lighting & style = 感情的なトーン。
  • Duration & aspect ratio = フォーマットの制約。

JsonToVideoのようなプラットフォームはこれをさらに推し進め、構造化されたJSONプロンプトをビジュアルエディター、再利用可能なJSON動画テンプレート、そして同じスキーマを共有するデュアルモデル構成(Veo 3.1とSora 2)でラップしています。

Veo 3.1とSora 2のための主要なJSONフィールド

被写体、カメラ、照明

すべてのチームが独自のスキーマを持つことになりますが、成果を上げているセットアップの多くは、いくつかの主要なフィールドを共有しています。

1. subject(被写体): 実際に何を撮影しているのか?

これがあなたのヒーローです。

  • テーブルの上の製品
  • 走っているアスリート
  • 都市のスカイライン
  • カメラに向かって話す人物

被写体を分離することで、カメラ、照明、スタイルを反復修正する間も、アイデンティティと形状を安定させることができます。

2. camera(カメラ): 被写体をどう見るか?

テキストプロンプトでは、カメラの指示が後回しにされがちです。JSONプロンプティングでは、それを明確に記述することが強制されます。

  • camera: "ドローンのエスタブリッシングショット、都市の上空をゆっくりとプッシュイン"
  • camera: "手持ち、アイレベル、穏やかな左右への動き"
  • camera: "マクロクローズアップ、浅い被写界深度、製品を横切るスロードリー"

特にVeo 3.1は、明示的なカメラ言語に強く反応します。スキーマにおける撮影監督(シネマトグラフィー)のフィールドと考えてください。

3. lighting & style(照明とスタイル): ムード、ジャンル、洗練度

照明とスタイルは、コンテンツを壊すことなく感情を変化させるため、独自のフィールドにする価値があります。

  • lighting: "柔らかな自然光、清潔なスタジオ、最小限の影"
  • lighting: "サイバーパンクのネオン、強いリムライト、暗い背景"
  • style: "洗練されたEコマース広告、高コントラスト"
  • style: "UGCスタイルの縦型動画、自然光、わずかな粒子感"

同じ被写体+カメラに対して、何十通りもの照明やスタイルの組み合わせを試して、何がコンバージョンにつながるかを確認できます。

4. durationSeconds(長さ) & aspectRatio(アスペクト比): プラットフォームへの適合

よくある問題ですが、16:9のYouTube広告をTikTok用に9:16に切り取ると、ひどい見た目になります。

JSONを使えば、長さとフレームをコード化できます。

  • durationSeconds: 8 または 12
  • aspectRatio: "16:9"、"9:16"、または "1:1"

JsonToVideoのエンジンはこれらのフィールドを使用して、別のプロンプトを作成することなく、同じテンプレートからYouTube、TikTok、リール、またはインフィード配置をターゲットにします。

5. audio(音声)とブランドの制約

最後に、サウンドとブランドを固定できます。

  • audio: "エネルギッシュなトラップビート、BPM100、ボーカルなし"
  • audio: "穏やかなアンビエントパッド、控えめなライザー音"
  • brandLock.logoPlacement: "bottom-right"(右下)
  • brandLock.colorPalette: "red, black, white"(赤、黒、白)

これが、「素敵なデモ」と「配信可能な広告」の違いです。

ステップバイステップ:初めてのVeo 3.1 JSONプロンプト(製品広告、16:9)

実際にコピーして使える形にしてみましょう。

1. シンプルなスキーマから始める

これがVeo 3.1製品広告のための最小限のテンプレートです。

{
  "model": "veo-3.1",
  "aspectRatio": "16:9",
  "durationSeconds": 8,
  "subject": "",
  "camera": "",
  "lighting": "",
  "style": "",
  "audio": "",
  "brandLock": {
    "logoPlacement": "bottom-right",
    "colorPalette": ""
  }
}

2. 具体的なシナリオを入力する

ワイヤレスイヤホンを宣伝すると仮定しましょう。

{
  "model": "veo-3.1",
  "aspectRatio": "16:9",
  "durationSeconds": 8,
  "subject": "反射するガラス面上のマットブラックのワイヤレスイヤホン一対",
  "camera": "ミディアムショットからクローズアップへのスロードリーイン、製品周りのわずかな視差",
  "lighting": "鋭い白いリムライトとわずかな反射のある暗いスタジオ",
  "style": "プレミアムテックコマーシャル、鮮明、高コントラスト、1080p対応",
  "audio": "トランジションに同期した深い低音ヒットのあるモダンなエレクトロニックトラック",
  "brandLock": {
    "logoPlacement": "bottom-right",
    "colorPalette": "black, white, electric blue"
  }
}

3. JsonToVideoで実行する

JsonToVideoで以下の手順を実行します:

  1. JSON Promptエディターを開く。
  2. テンプレートを貼り付け、brandLockstyleを自社のブランドに合わせて調整する。
  3. モデルとしてVeo 3.1を選択し、生成する。

これで、壊れやすい1回限りのプロンプトではなく、再現可能で編集可能なレシピが手に入りました。

例2:縦型UGCスタイルソーシャル広告(Sora 2、9:16)

次に、Sora 2を使用して、このアイデアをUGCスタイルのTikTokまたはリール動画に適応させてみましょう。

{
  "model": "sora-2",
  "aspectRatio": "9:16",
  "durationSeconds": 10,
  "subject": "居心地の良いバスルームで、新しいスキンケア美容液について自撮り動画で話している若い女性",
  "camera": "手持ち、アイレベル、わずかな自然な手ブレ、時折行われる微細なリフレーミング",
  "lighting": "バスルームの鏡からの暖かい室内照明、柔らかな影、自然な肌の色合い",
  "style": "UGC縦型広告、本物のスマホカメラ映像のような質感、軽い粒子感",
  "audio": "低音量の控えめなBGMと自然なナレーション",
  "callToAction": "画面上のテキスト:終了近くに表示される『30日間試してみる』"
}

これも構造化されていますが、Veo 3.1の製品スポットよりも意図的に洗練度を下げています。Sora 2に次のように指示しているのです。

  • 実在する人物の自撮りのように感じさせること。
  • 動きを正直かつ少し手ブレのあるものに保つこと。
  • CTA(行動喚起)をランダムな後付けではなく、画面上に配置すること。

例3:製品写真からのImage-to-Video JSONモーション

JsonToVideoは、静止画をアップロードしてJSONで動きを制御するImage-to-Video(画像から動画生成)もサポートしています。

既に強力な製品写真があり、シンプルなヒーローモーションを加えたいとします。

{
  "mode": "image-to-video",
  "imageUrl": "https://your-cdn.com/images/serum-bottle.png",
  "model": "veo-3.1",
  "durationSeconds": 10,
  "aspectRatio": "9:16",
  "cameraPath": "ボトルのミディアムショットで開始、その後スロードリーインし、製品の周りを時計回りに小さく弧を描く",
  "motionIntensity": "medium",
  "pacing": "一定、急なジャンプなし",
  "lighting": "清潔なスタジオライト、白い背景、ガラス上の柔らかな反射",
  "style": "ミニマリストなEコマース広告、明瞭さとラベルの可読性を重視",
  "audio": "柔らかなアンビエント背景音、ボーカルなし"
}

これは、JsonToVideoのImage to Video機能が「ワンステップで写真をモーションに」や「JSONモーションコントロール」と説明しているものと一致します。画像を提供し、Veo 3.1またはSora 2を選択し、モデルが良いパンやズームを選んでくれることを期待する代わりに、JSONを使用してカメラパスやペーシングを操作します。

単一のクリップからプログラマティック・クリエイティブへ

JsonToVideo Editor

JSONプロンプティングの真の力は、1つのプロンプトの見栄えが少し良くなることではありません。それは以下の点にあります。

  1. プロンプトをテンプレートとして保存できる。
  2. いくつかのフィールド(subjectcolorPalettecallToAction)を交換できる。
  3. プログラムによって何十、何百ものバリエーションを生成できる。

例えば:

cameralightingstyledurationSecondsaspectRatioは固定します。

製品のスプレッドシートを反復処理します:

  • subject: "コンクリートの床上の赤いランニングシューズ"
  • subject: "岩の道上の黒いトレイルシューズ"
  • subject: "木製デスク上の白いライフスタイルスニーカー"

あるいは、A/BテストのためにcallToActionだけを変更します:

  • "今日なら送料無料"
  • "30日間試してみる"
  • "バンドル購入で20%オフ"

これこそがJsonToVideoが設計された目的です。バージョンごとに手動で再プロンプトすることなく、構造化データをシネマティックなクリップに変換するのです。

広告主が重視する理由:品質、権利、フォーマット

無料ツールや1回限りのデモは趣味なら問題ありません。しかし、実際のキャンペーンにおいてチームは以下を重視します。

  • 広告に耐えうる解像度 – JsonToVideoは、現代のディスプレイできれいに見える1080pグレードの出力を前提に構築されています。
  • 透かし(ウォーターマーク)なし – ツールではなく、あなたのブランドがフレームを所有すべきです。
  • 商用利用権 – 法務チームがパニックにならないために。
  • 複数のアスペクト比 – 同じテンプレートから、ランディングページ用の16:9、TikTok/リール用の9:16を作成できます。
  • 予測可能なコスト – Veo 3.1とSora 2のレンダリング量に明確に対応したクレジットベースの価格設定。

JSONプロンプティングは、動画の見栄えを良くするだけではありません。パイプライン全体を測定可能で再現可能なものにします。

JsonToVideoをスタックに組み込む方法

JsonToVideoは、プロンプトをコードのように扱いたいチームのために特別に構築されています。

  • Veo 3.1とSora 2のための構造化されたJSONプロンプト
  • 再利用可能なショットやキャンペーンのためのテンプレートライブラリ
  • 強力な写真が既にある場合に、JSONモーションコントロールを使用したImage-to-video
  • 個人のクリエイターから代理店、インハウスチームまでスケールするクレジットベースの価格設定

ビジュアルから始めてエディターにJSONを生成させることも、既に慣れている場合は生のJSONに直接飛び込むこともできます。

次のステップ:推測をやめ、監督を始めよう

まだ1行のプロンプトを書いて最高の結果を期待しているなら、あなたはお金と、そして正気をドブに捨てているようなものです。

この記事を実際のワークフローに変える方法は以下の通りです。

  1. JSON Promptエディターを開く: プリセットから始め、subjectcameralightingdurationSecondsaspectRatioを追加します。
  2. 上記のテンプレートの1つを貼り付ける: 製品に合わせてsubjectbrandLockcallToActionをカスタマイズします。
  3. Veo 3.1 vs Sora 2をテストする: 迅速なクリエイティブ探索にはSora 2を使用し、勝ちパターンが決まったらVeo 3.1で本番品質の実行をロックします。
  4. データでスケールする: コンバージョンにつながるJSONテンプレートができたら、スプレッドシートやCMSに接続して大規模に生成します。

クリエイティビティを捨てる必要はありません。 祈るのをやめて、監督を始めるだけでいいのです。

ニュースレター

コミュニティに参加する

最新のニュースと更新情報を入手するには、ニュースレターを購読してください

AI動画生成におけるJSONプロンプティング:Veo 3.1とSora 2が「運任せのプロンプト」を変える方法