Escribe un párrafo. Obtén un vídeo con calidad cinematográfica con audio sincronizado, múltiples ángulos de cámara y una narración coherente. Eso es lo que ofrece el modo texto a vídeo de Seedance 2.0, y representa un salto generacional respecto a lo que era posible hace apenas unos meses. Esta guía cubre todo lo que necesitas para pasar de un prompt en blanco a un clip pulido, incluyendo los ajustes exactos, la estructura del prompt y las técnicas que producen resultados utilizables al primer intento.
Ejemplos de Texto a Vídeo
Todos los vídeos a continuación fueron generados solo a partir de un prompt de texto, sin imágenes de referencia ni archivos subidos. Solo palabras como entrada, vídeo como salida.
Qué Cambió de la 1.0 a la 2.0
Si usaste el texto a vídeo de Seedance 1.0, olvida la mayor parte de lo que aprendiste. La mejora es así de significativa.
| Capacidad | Seedance 1.0 | Seedance 2.0 |
|---|---|---|
| Resolución Máxima | 1080p | 2K |
| Duración Máxima | 10 segundos | 15 segundos |
| Audio | Ninguno (silencio) | Audio nativo: diálogos, efectos de sonido, música, ambiente |
| Multi-Toma | Indicaciones básicas de escena | Multi-toma completo con cortes tipo "lens switch" |
| Diálogos | No soportado | Habla con sincronización labial en 8+ idiomas |
| Física | Básica | Gravedad, momento, dinámica de fluidos realistas |
| Tasa de Éxito | ~20% utilizable | 90%+ utilizable al primer intento |
| Relaciones de Aspecto | 16:9, 9:16, 1:1 | 16:9, 4:3, 1:1, 3:4, 9:16 |
La mayor diferencia práctica: ahora puedes escribir prompts complejos con múltiples escenas y diálogos, y Seedance generará un mini-film coherente con audio sincronizado, sin necesidad de postproducción.
Cómo Acceder al Modo Texto a Vídeo
El texto a vídeo en Seedance 2.0 se accede a través de Dreamina o Little Skylark. Aquí está el detalle clave que muchos usuarios pasan por alto:
- Abre Dreamina → Generación de Vídeo → selecciona Seedance 2.0
- Elige el modo "First Frame / Last Frame"
- Deja vacíos los campos de subida de imagen, simplemente escribe tu prompt
- Selecciona la relación de aspecto, la duración (hasta 15s) y genera
Importante: El texto a vídeo no está disponible en el modo "All-Round Reference". Ese modo requiere al menos un archivo subido. Para prompts de solo texto, debes usar el modo First Frame / Last Frame sin imágenes adjuntas.
Estructura del Prompt para Texto a Vídeo
Seedance 2.0 responde mejor a prompts construidos sobre tres elementos clave: sujeto + acción + escena. Añade cámara, estilo y restricciones según sea necesario.
La Fórmula Básica
[Subject with visual details] + [Action in present tense] + [Scene/environment] + [Camera direction] + [Style/lighting]
Ejemplo — Escena Simple
A woman in a red leather jacket walks through a neon-lit alley at night. Rain puddles reflect the signs above. Medium tracking shot, handheld feel, cyberpunk atmosphere, volumetric fog.
Ejemplo — Multi-Toma con Diálogo
A dimly lit room, boarded up windows. Close-up of a couple huddled in a corner. The girl whispers, voice trembling: "They're right outside." The guy grips her hand, subtle fear in eyes: "We just have to stay quiet. Don't move." A zombie breaks through a weak board and they scream. The guy yells, grabbing a chair: "Get back! Get the hell back!"
En las pruebas, Seedance 2.0 sigue narrativas de varios pasos como esta con alta precisión: mantiene la consistencia de los personajes, genera audio de diálogo apropiado y gestiona los cambios emocionales entre la tensión silenciosa y la acción repentina.
Ejemplo — Comercial / Producto
Commercial for Bad Breath Spray. It smells like hard-boiled eggs and despair. Use it to maintain social distancing and personal space. The ad features a businessman spraying it on the bus so everyone immediately moves away. The perfect product for introverts.
Seedance puede generar anuncios completos con colocación de producto, texto en pantalla y transiciones de escena a partir de descripciones como esta. El modelo entiende los formatos comerciales y aplica automáticamente un ritmo apropiado.
Ajustes y Parámetros Clave
| Ajuste | Opciones | Recomendación |
|---|---|---|
| Duración | 4-15 segundos | 10-15s para multi-toma, 5-8s para escenas individuales |
| Relación de Aspecto | 16:9, 4:3, 1:1, 3:4, 9:16 | 16:9 para YouTube, 9:16 para TikTok/Reels |
| Cámara | Fija / No fija | Selecciona "no fija" para cualquier prompt con movimiento de cámara |
| Fotogramas | 24 fps | Tasa de fotogramas cinematográfica estándar |
En Qué Destaca el Texto a Vídeo
Animación 3D / Estilo Pixar
Seedance 2.0 sobresale en la generación de animaciones 3D con calidad Pixar a partir de texto. El modelo entiende narrativas complejas con múltiples momentos: una princesa huyendo de un dragón, el dragón escupiendo fuego, la princesa cruzando un río sobre escombros, mirando hacia atrás al dragón frustrado, y renderiza cada momento con el trabajo de cámara y audio apropiados.
Comerciales y Anuncios
Describe el concepto de tu producto y Seedance genera un comercial estructurado con transiciones de escena, planos del producto e incluso texto en pantalla. Funciona tanto para conceptos ficticios como para descripciones de productos reales. El modelo aplica formatos comerciales (planos heroicos, llamadas a beneficios, fotogramas de cierre) de forma automática.
UGC y Día a Día
Prompts como "UGC day in the life of a Gen Z girl—morning routine, coffee, getting ready, heading out" producen grabaciones con aspecto auténtico de teléfono móvil con ritmo y transiciones naturales.
Escenas con Muchos Diálogos
Puedes escribir las líneas exactas de diálogo y Seedance generará personajes diciendo esas palabras con audio sincronizado con los labios, emociones apropiadas y lenguaje corporal natural. El modelo maneja susurros, gritos, conversaciones casuales e intercambios emocionales.
Contenido Multi-Idioma
Seedance genera diálogos en 8+ idiomas con sincronización labial precisa: inglés, chino, japonés, coreano, español, francés, alemán y portugués. Puedes especificar múltiples idiomas en un solo prompt: cada personaje habla en el idioma asignado.
Consejos de Prompts para Mejores Resultados
- Mantén menos de 60 palabras para escenas simples, hasta 150 para secuencias multi-toma complejas
- Usa tiempo presente: "walks" en lugar de "walked" o "will walk", ya que el modelo necesita acciones en presente
- Especifica la intensidad: "roaring madly" en vez de solo "roaring"; el modelo necesita indicaciones explícitas de intensidad
- Describe fuerzas, no solo acciones: "tires smoke as car drifts 90 degrees" en lugar de "car turns"
- Usa "lens switch" para indicar cortes entre escenas dentro de una misma generación
- Siempre especifica la iluminación: sin ella, la resolución 2K pierde su impacto visual
- Incluye indicaciones de audio: palabras clave como "reverb", "muffled", "metallic clink" guían el motor de audio nativo
Para el marco completo de prompts con plantillas, vocabulario de cámara y técnicas avanzadas, consulta la Guía de Prompts.
Limitaciones Conocidas
- Renderizado de texto: El texto en pantalla (etiquetas de productos, carteles) a veces tiene ruido o letras distorsionadas; esta es una limitación conocida en todos los modelos de vídeo IA
- Contenido preciso de pizarras/diagramas: El modelo puede escribir fórmulas en una pizarra pero puede equivocarse con los diagramas
- Coincidencia de voces de personajes: Aunque el modelo conoce las voces de muchos personajes famosos, no siempre puede generarlas bajo demanda
- Tiempo de procesamiento: Los clips estándar tardan ~60 segundos; las secuencias multi-toma de 15 segundos pueden tardar hasta 10 minutos
- Sin prompts negativos: A diferencia de los generadores de imágenes, Seedance no responde a prompts negativos; usa restricciones de exclusión en lenguaje natural en su lugar
Texto a Vídeo vs Imagen a Vídeo
| Factor | Texto a Vídeo | Imagen a Vídeo |
|---|---|---|
| Libertad creativa | Máxima: el modelo decide todos los elementos visuales | Guiada: el modelo sigue la imagen de referencia |
| Control de personajes | Menos preciso: descrito con palabras | Preciso: personaje basado en foto de referencia |
| Ideal para | Comerciales, conceptos, prototipos rápidos | Trabajo con personajes específicos, consistencia de marca |
| Consistencia | Menor: varía por generación | Mayor: anclada a la imagen de referencia |
Para el máximo control, considera subir imágenes de referencia usando el sistema de referencia @ en lugar del texto a vídeo puro. Obtienes lo mejor de ambos mundos: dirección creativa del prompt con anclaje visual.
Preguntas Frecuentes
P: ¿El texto a vídeo de Seedance incluye audio?
R: Sí. Seedance 2.0 genera audio de forma nativa y simultánea con el vídeo: diálogos, efectos de sonido, sonidos ambientales y música. Esta es una mejora importante respecto a la 1.0, que era silenciosa.
P: ¿Cuál es la duración máxima del vídeo?
R: 15 segundos por generación a una resolución de hasta 2K. Para contenido más largo, genera múltiples clips y ensámblalos en un editor como CapCut.
P: ¿Cómo obtengo vídeos multi-toma a partir de un solo prompt?
R: Describe las escenas de forma secuencial en tu prompt. Usa "lens switch" para indicar cortes. Seedance mantiene la consistencia del personaje y genera transiciones apropiadas entre escenas.
P: ¿Puedo especificar diálogos exactos?
R: Sí. Escribe el diálogo entre comillas dentro de tu prompt. Seedance genera habla con sincronización labial que coincide con tu texto. Especifica el idioma si es necesario, o escribe el diálogo directamente en el idioma deseado.
P: ¿Por qué no encuentro texto a vídeo en el modo All-Round Reference?
R: El texto a vídeo puro requiere el modo "First Frame / Last Frame" sin imágenes adjuntas. El modo All-Round Reference requiere al menos un archivo subido.
P: ¿Cuánto cuesta una generación de texto a vídeo?
R: En Dreamina, un texto a vídeo estándar de 10 segundos cuesta aproximadamente $1,91-$4,60 dependiendo de la resolución y las funciones. Little Skylark ofrece generaciones diarias gratuitas limitadas. Consulta nuestra Guía de Precios para todos los detalles.
P: ¿Es el texto a vídeo mejor que la imagen a vídeo?
R: Ninguno es inherentemente mejor: sirven para propósitos diferentes. El texto a vídeo ofrece máxima libertad creativa; la imagen a vídeo ofrece más control visual. Muchos creadores usan texto a vídeo para exploración de conceptos, y luego cambian a imagen a vídeo para la producción final con imágenes de referencia.
¿Listo para empezar a crear prompts? Consulta la Guía de Prompts para plantillas que puedes copiar y pegar, o explora imagen a vídeo si tienes material de referencia con el que trabajar. Para acceso a la plataforma y costes, consulta la Guía de Precios.