Seedance Texto a Vídeo: Guía Completa y Tutorial (2026)

Escribe un párrafo. Obtén un vídeo con calidad cinematográfica con audio sincronizado, múltiples ángulos de cámara y una narración coherente. Eso es lo que ofrece el modo texto a vídeo de Seedance 2.0, y representa un salto generacional respecto a lo que era posible hace apenas unos meses. Esta guía cubre todo lo que necesitas para pasar de un prompt en blanco a un clip pulido, incluyendo los ajustes exactos, la estructura del prompt y las técnicas que producen resultados utilizables al primer intento.

Ejemplos de Texto a Vídeo

Todos los vídeos a continuación fueron generados solo a partir de un prompt de texto, sin imágenes de referencia ni archivos subidos. Solo palabras como entrada, vídeo como salida.

Qué Cambió de la 1.0 a la 2.0

Si usaste el texto a vídeo de Seedance 1.0, olvida la mayor parte de lo que aprendiste. La mejora es así de significativa.

Capacidad	Seedance 1.0	Seedance 2.0
Resolución Máxima	1080p	2K
Duración Máxima	10 segundos	15 segundos
Audio	Ninguno (silencio)	Audio nativo: diálogos, efectos de sonido, música, ambiente
Multi-Toma	Indicaciones básicas de escena	Multi-toma completo con cortes tipo "lens switch"
Diálogos	No soportado	Habla con sincronización labial en 8+ idiomas
Física	Básica	Gravedad, momento, dinámica de fluidos realistas
Tasa de Éxito	~20% utilizable	90%+ utilizable al primer intento
Relaciones de Aspecto	16:9, 9:16, 1:1	16:9, 4:3, 1:1, 3:4, 9:16

La mayor diferencia práctica: ahora puedes escribir prompts complejos con múltiples escenas y diálogos, y Seedance generará un mini-film coherente con audio sincronizado, sin necesidad de postproducción.

Cómo Acceder al Modo Texto a Vídeo

El texto a vídeo en Seedance 2.0 se accede a través de Dreamina o Little Skylark. Aquí está el detalle clave que muchos usuarios pasan por alto:

Abre Dreamina → Generación de Vídeo → selecciona Seedance 2.0
Elige el modo "First Frame / Last Frame"
Deja vacíos los campos de subida de imagen, simplemente escribe tu prompt
Selecciona la relación de aspecto, la duración (hasta 15s) y genera

Importante: El texto a vídeo no está disponible en el modo "All-Round Reference". Ese modo requiere al menos un archivo subido. Para prompts de solo texto, debes usar el modo First Frame / Last Frame sin imágenes adjuntas.

Text-to-video generation using a first frame reference in Dreamina

Estructura del Prompt para Texto a Vídeo

Seedance 2.0 responde mejor a prompts construidos sobre tres elementos clave: sujeto + acción + escena. Añade cámara, estilo y restricciones según sea necesario.

La Fórmula Básica

[Subject with visual details] + [Action in present tense] + [Scene/environment] + [Camera direction] + [Style/lighting]

Ejemplo — Escena Simple

A woman in a red leather jacket walks through a neon-lit alley at night. Rain puddles reflect the signs above. Medium tracking shot, handheld feel, cyberpunk atmosphere, volumetric fog.

Ejemplo — Multi-Toma con Diálogo

A dimly lit room, boarded up windows. Close-up of a couple huddled in a corner. The girl whispers, voice trembling: "They're right outside." The guy grips her hand, subtle fear in eyes: "We just have to stay quiet. Don't move." A zombie breaks through a weak board and they scream. The guy yells, grabbing a chair: "Get back! Get the hell back!"

En las pruebas, Seedance 2.0 sigue narrativas de varios pasos como esta con alta precisión: mantiene la consistencia de los personajes, genera audio de diálogo apropiado y gestiona los cambios emocionales entre la tensión silenciosa y la acción repentina.

Ejemplo — Comercial / Producto

Commercial for Bad Breath Spray. It smells like hard-boiled eggs and despair. Use it to maintain social distancing and personal space. The ad features a businessman spraying it on the bus so everyone immediately moves away. The perfect product for introverts.

Seedance puede generar anuncios completos con colocación de producto, texto en pantalla y transiciones de escena a partir de descripciones como esta. El modelo entiende los formatos comerciales y aplica automáticamente un ritmo apropiado.

Ajustes y Parámetros Clave

Ajuste	Opciones	Recomendación
Duración	4-15 segundos	10-15s para multi-toma, 5-8s para escenas individuales
Relación de Aspecto	16:9, 4:3, 1:1, 3:4, 9:16	16:9 para YouTube, 9:16 para TikTok/Reels
Cámara	Fija / No fija	Selecciona "no fija" para cualquier prompt con movimiento de cámara
Fotogramas	24 fps	Tasa de fotogramas cinematográfica estándar

En Qué Destaca el Texto a Vídeo

Animación 3D / Estilo Pixar

Seedance 2.0 sobresale en la generación de animaciones 3D con calidad Pixar a partir de texto. El modelo entiende narrativas complejas con múltiples momentos: una princesa huyendo de un dragón, el dragón escupiendo fuego, la princesa cruzando un río sobre escombros, mirando hacia atrás al dragón frustrado, y renderiza cada momento con el trabajo de cámara y audio apropiados.

Comerciales y Anuncios

Describe el concepto de tu producto y Seedance genera un comercial estructurado con transiciones de escena, planos del producto e incluso texto en pantalla. Funciona tanto para conceptos ficticios como para descripciones de productos reales. El modelo aplica formatos comerciales (planos heroicos, llamadas a beneficios, fotogramas de cierre) de forma automática.

UGC y Día a Día

Prompts como "UGC day in the life of a Gen Z girl—morning routine, coffee, getting ready, heading out" producen grabaciones con aspecto auténtico de teléfono móvil con ritmo y transiciones naturales.

Escenas con Muchos Diálogos

Puedes escribir las líneas exactas de diálogo y Seedance generará personajes diciendo esas palabras con audio sincronizado con los labios, emociones apropiadas y lenguaje corporal natural. El modelo maneja susurros, gritos, conversaciones casuales e intercambios emocionales.

Contenido Multi-Idioma

Seedance genera diálogos en 8+ idiomas con sincronización labial precisa: inglés, chino, japonés, coreano, español, francés, alemán y portugués. Puedes especificar múltiples idiomas en un solo prompt: cada personaje habla en el idioma asignado.

Consejos de Prompts para Mejores Resultados

Mantén menos de 60 palabras para escenas simples, hasta 150 para secuencias multi-toma complejas
Usa tiempo presente: "walks" en lugar de "walked" o "will walk", ya que el modelo necesita acciones en presente
Especifica la intensidad: "roaring madly" en vez de solo "roaring"; el modelo necesita indicaciones explícitas de intensidad
Describe fuerzas, no solo acciones: "tires smoke as car drifts 90 degrees" en lugar de "car turns"
Usa "lens switch" para indicar cortes entre escenas dentro de una misma generación
Siempre especifica la iluminación: sin ella, la resolución 2K pierde su impacto visual
Incluye indicaciones de audio: palabras clave como "reverb", "muffled", "metallic clink" guían el motor de audio nativo

Para el marco completo de prompts con plantillas, vocabulario de cámara y técnicas avanzadas, consulta la Guía de Prompts.

Limitaciones Conocidas

Renderizado de texto: El texto en pantalla (etiquetas de productos, carteles) a veces tiene ruido o letras distorsionadas; esta es una limitación conocida en todos los modelos de vídeo IA
Contenido preciso de pizarras/diagramas: El modelo puede escribir fórmulas en una pizarra pero puede equivocarse con los diagramas
Coincidencia de voces de personajes: Aunque el modelo conoce las voces de muchos personajes famosos, no siempre puede generarlas bajo demanda
Tiempo de procesamiento: Los clips estándar tardan ~60 segundos; las secuencias multi-toma de 15 segundos pueden tardar hasta 10 minutos
Sin prompts negativos: A diferencia de los generadores de imágenes, Seedance no responde a prompts negativos; usa restricciones de exclusión en lenguaje natural en su lugar

Texto a Vídeo vs Imagen a Vídeo

Factor	Texto a Vídeo	Imagen a Vídeo
Libertad creativa	Máxima: el modelo decide todos los elementos visuales	Guiada: el modelo sigue la imagen de referencia
Control de personajes	Menos preciso: descrito con palabras	Preciso: personaje basado en foto de referencia
Ideal para	Comerciales, conceptos, prototipos rápidos	Trabajo con personajes específicos, consistencia de marca
Consistencia	Menor: varía por generación	Mayor: anclada a la imagen de referencia

Para el máximo control, considera subir imágenes de referencia usando el sistema de referencia @ en lugar del texto a vídeo puro. Obtienes lo mejor de ambos mundos: dirección creativa del prompt con anclaje visual.

Consejos y Preguntas

¿El texto a vídeo de Seedance incluye audio?

Sí. Seedance 2.0 genera audio de forma nativa y simultánea con el vídeo: diálogos, efectos de sonido, sonidos ambientales y música. Esta es una mejora importante respecto a la 1.0, que era silenciosa.

¿Cuál es la duración máxima del vídeo?

15 segundos por generación a una resolución de hasta 2K. Para contenido más largo, genera múltiples clips y ensámblalos en un editor como CapCut.

¿Cómo obtengo vídeos multi-toma a partir de un solo prompt?

Describe las escenas de forma secuencial en tu prompt. Usa "lens switch" para indicar cortes. Seedance mantiene la consistencia del personaje y genera transiciones apropiadas entre escenas.

¿Puedo especificar diálogos exactos?

Sí. Escribe el diálogo entre comillas dentro de tu prompt. Seedance genera habla con sincronización labial que coincide con tu texto. Especifica el idioma si es necesario, o escribe el diálogo directamente en el idioma deseado.

¿Por qué no encuentro texto a vídeo en el modo All-Round Reference?

El texto a vídeo puro requiere el modo "First Frame / Last Frame" sin imágenes adjuntas. El modo All-Round Reference requiere al menos un archivo subido.

¿Cuánto cuesta una generación de texto a vídeo?

En Dreamina, un texto a vídeo estándar de 10 segundos cuesta aproximadamente $1,91-$4,60 dependiendo de la resolución y las funciones. Little Skylark ofrece generaciones diarias gratuitas limitadas. Consulta nuestra Guía de Precios para todos los detalles.

¿Es el texto a vídeo mejor que la imagen a vídeo?

Ninguno es inherentemente mejor: sirven para propósitos diferentes. El texto a vídeo ofrece máxima libertad creativa; la imagen a vídeo ofrece más control visual. Muchos creadores usan texto a vídeo para exploración de conceptos, y luego cambian a imagen a vídeo para la producción final con imágenes de referencia.

¿Listo para empezar a crear prompts? Consulta la Guía de Prompts para plantillas que puedes copiar y pegar, o explora imagen a vídeo si tienes material de referencia con el que trabajar. Para acceso a la plataforma y costes, consulta la Guía de Precios.