
Si trabajas en marketing de resultados, producción de contenido o estrategia creativa, probablemente hayas sentido este patrón:
Los modelos generativos como Veo 3.1 y Sora 2 han hecho accesible el video cinemático. Pero el flujo de trabajo predeterminado sigue siendo lo que muchos equipos llaman discretamente “prompt y rezar”: lanzas un párrafo de texto y esperas que el modelo adivine tu intención.
Esa adivinanza está bien para experimentos únicos. Pero se rompe completamente cuando:
Aquí es donde los prompts JSON cambian el juego.
En lugar de texto vago, defines campos estructurados—subject (sujeto), camera (cámara), lighting (iluminación), duration (duración), audio, e incluso aspectRatio (relación de aspecto)—y dejas que el modelo siga un informe claro. JsonToVideo se basa en esta idea: prompts JSON estructurados que producen clips predecibles y fieles a la marca con Veo 3.1 o Sora 2.

Un flujo de trabajo estándar de video con IA se ve así:
“Un coche deportivo futurista conduciendo por Tokio de noche, luces de neón, iluminación cinemática, 4K, toma estilo producto.”
El modelo tiene que adivinar todo lo siguiente:
Cambia un adjetivo y a menudo obtienes un video completamente diferente. Para creadores que hacen YouTube Shorts, eso es aceptable. Para anunciantes con objetivos de rendimiento, es una pesadilla.
Los puntos de dolor:
Los prompts de forma libre son buenos para la exploración. Son terribles como sistema de producción.
El prompting JSON trata tu resumen de video como datos estructurados en lugar de un párrafo.
En lugar de esto:
“Un coche deportivo rojo derrapando en una pista de carreras, cinemático, luz solar cálida, anuncio de 8 segundos, 16:9, música alegre.”
Pasas a algo como esto:
{
"subject": "Un coche deportivo rojo derrapando en una curva de pista de carreras",
"camera": "Toma de seguimiento de ángulo bajo siguiendo detrás del coche",
"lighting": "Hora dorada, luz solar cálida, sombras largas",
"style": "Cinemático, nítido, alto contraste",
"durationSeconds": 8,
"aspectRatio": "16:9",
"audio": "Pista electrónica energética con sonidos de motor"
}
Ahora el modelo no tiene que adivinar:
Plataformas como JsonToVideo llevan esto más allá: envuelven los prompts JSON en un editor visual, plantillas reutilizables y una configuración de modelo dual (Veo 3.1 y Sora 2) que comparten el mismo esquema.

Aunque cada equipo termina con su propio esquema, la mayoría de las configuraciones de alto rendimiento comparten algunos campos principales:
Este es tu protagonista:
Al aislar el sujeto, mantienes la identidad y la geometría estables mientras iteras sobre la cámara, la iluminación y el estilo.
Los prompts de texto a menudo entierran la dirección de cámara como algo secundario. El prompting JSON te obliga a detallarlo:
camera: "Toma de establecimiento con dron, acercamiento lento sobre la ciudad"camera: "Cámara en mano, a nivel de los ojos, movimiento suave de lado a lado"camera: "Primer plano macro, poca profundidad de campo, dolly lento a través del producto"Veo 3.1, en particular, responde fuertemente al lenguaje de cámara explícito; piénsalo como el campo de cinematografía en tu esquema.
La iluminación y el estilo merecen sus propios campos porque cambian la emoción sin romper el contenido:
lighting: "Luz diurna suave, estudio limpio, sombras mínimas"lighting: "Neón cyberpunk, luces de borde fuertes, fondo oscuro"style: "Anuncio de ecommerce elegante, alto contraste"style: "Video vertical estilo UGC, luz natural, ligero grano"Puedes ejecutar docenas de combinaciones de iluminación/estilo sobre el mismo sujeto + cámara para ver qué convierte mejor.
Conoces el problema: un anuncio de YouTube en 16:9 se ve horrible cuando se recorta a 9:16 para TikTok.
JSON te permite codificar la duración y el encuadre:
durationSeconds: 8 o 12aspectRatio: "16:9", "9:16", o "1:1"El motor de JsonToVideo usa estos campos para apuntar a YouTube, TikTok, Reels o ubicaciones en el feed desde la misma plantilla, no con otro prompt más.
Finalmente, puedes bloquear el sonido y la marca:
audio: "Ritmo trap energético, 100 BPM, sin voces"audio: "Fondo ambiental tranquilo, subidas sutiles"brandLock.logoPlacement: "bottom-right" (abajo-derecha)brandLock.colorPalette: "rojo, negro, blanco"Esta es la diferencia entre una “buena demo” y un anuncio publicable.
Convirtamos esto en algo que realmente puedas copiar.
Aquí tienes una plantilla mínima para un anuncio de producto con Veo 3.1:
{
"model": "veo-3.1",
"aspectRatio": "16:9",
"durationSeconds": 8,
"subject": "",
"camera": "",
"lighting": "",
"style": "",
"audio": "",
"brandLock": {
"logoPlacement": "bottom-right",
"colorPalette": ""
}
}
Ahora digamos que estás promocionando unos auriculares inalámbricos:
{
"model": "veo-3.1",
"aspectRatio": "16:9",
"durationSeconds": 8,
"subject": "Un par de auriculares inalámbricos negro mate sobre una superficie de vidrio reflectante",
"camera": "Dolly-in lento desde plano medio a primer plano, ligero paralaje alrededor del producto",
"lighting": "Estudio oscuro con luces de borde blancas nítidas y reflejos sutiles",
"style": "Comercial de tecnología premium, nítido, alto contraste, listo para 1080p",
"audio": "Pista electrónica moderna con golpes de bajo profundos sincronizados con las transiciones",
"brandLock": {
"logoPlacement": "bottom-right",
"colorPalette": "negro, blanco, azul eléctrico"
}
}
En JsonToVideo:
brandLock y style para que coincidan con tu marca.Ahora tienes una receta repetible y editable en lugar de un prompt frágil de un solo uso.
Ahora adaptemos la idea para un clip de TikTok o Reels estilo UGC usando Sora 2.
{
"model": "sora-2",
"aspectRatio": "9:16",
"durationSeconds": 10,
"subject": "Una mujer joven grabando un video selfie hablando sobre su nuevo suero para el cuidado de la piel en un baño acogedor",
"camera": "Cámara en mano, a nivel de los ojos, ligero temblor natural, reencuadre micro ocasional",
"lighting": "Iluminación interior cálida del espejo del baño, sombras suaves, tonos de piel naturales",
"style": "Anuncio vertical UGC, se siente como un clip real de cámara de teléfono, grano ligero",
"audio": "Voz en off natural con música de fondo sutil a bajo volumen",
"callToAction": "Texto en pantalla: 'Pruébalo por 30 días' apareciendo cerca del final"
}
Esto sigue siendo estructurado, pero intencionalmente menos pulido que un spot de producto de Veo 3.1. Le estás diciendo a Sora 2:
JsonToVideo también admite imagen a video, donde subes una imagen fija y añades JSON para controlar el movimiento.
Imagina que ya tienes una foto de producto sólida y quieres un movimiento destacado simple:
{
"mode": "image-to-video",
"imageUrl": "https://tu-cdn.com/imagenes/botella-suero.png",
"model": "veo-3.1",
"durationSeconds": 10,
"aspectRatio": "9:16",
"cameraPath": "Comenzar en plano medio de la botella, luego dolly-in lento y pequeño arco en el sentido de las agujas del reloj alrededor del producto",
"motionIntensity": "medium",
"pacing": "constante, sin saltos repentinos",
"lighting": "Luz de estudio limpia, fondo blanco, reflejos suaves en el vidrio",
"style": "Anuncio de ecommerce minimalista, enfoque en la claridad y legibilidad de la etiqueta",
"audio": "Cama de fondo ambiental suave, sin voces"
}
Esto coincide con cómo la función de Imagen a Video de JsonToVideo describe “Foto a Movimiento en un Paso” y “Controles de Movimiento JSON”: proporcionas una imagen, seleccionas Veo 3.1 o Sora 2, y usas JSON para dirigir la trayectoria de la cámara y el ritmo en lugar de esperar que el modelo elija un buen paneo o zoom.

El verdadero poder de los prompts JSON no es que un prompt se vea ligeramente mejor. Es que:
subject, colorPalette, callToAction), yPor ejemplo:
Mantén camera, lighting, style, durationSeconds y aspectRatio fijos.
Itera sobre una hoja de cálculo de productos:
subject: "Zapatilla de correr roja sobre piso de concreto"subject: "Zapatilla de trail negra en camino rocoso"subject: "Zapatilla urbana blanca en escritorio de madera"O cambia solo el callToAction para pruebas A/B:
Para esto está diseñado JsonToVideo: convertir datos estructurados en clips cinemáticos sin volver a escribir manualmente el prompt para cada versión.
Las herramientas gratuitas y las demos únicas están bien para pasatiempos. Para campañas reales, a los equipos les importa:
El prompting JSON no solo hace que los videos se vean mejor—hace que toda la tubería sea medible y repetible.
JsonToVideo está construido específicamente para equipos que quieren tratar los prompts como código:
Puedes comenzar visualmente y dejar que el editor genere el JSON por ti, o saltar directamente al JSON sin procesar si ya te sientes cómodo con él.
Si todavía estás escribiendo prompts de una línea y esperando lo mejor, estás dejando dinero—y cordura—sobre la mesa.
Aquí te mostramos cómo convertir este artículo en un flujo de trabajo real:
subject, camera, lighting, durationSeconds y aspectRatio.subject, brandLock y callToAction para tu producto.No tienes que abandonar la creatividad. Solo necesitas dejar de rezar y empezar a dirigir.
Únete a la comunidad
Suscríbete para recibir las últimas novedades y plantillas.
