Hace rato quería probar Seedance 2.0, pero no me había hecho el tiempo ni una cuenta en alguna de las plataformas donde se puede usar.

Por lo mismo me cayeron del cielo los créditos que me regaló la gente de Loova, plataforma que además de Seedance 2.0 incluye otros generadores de imágenes y videos, y que por estos días está lanzando la versión beta de su agente para hacer videos con IA.

Seedance 2.0 es un modelo de generación de video con Inteligencia Artificial que permite crear secuencias audiovisuales altamente realistas a partir de indicaciones de texto y referencias visuales.

La descripción, que a esta altura ya es típica para prácticamente cualquier generador de videos actual, toma una nueva dimensión con esta IA china.

Por qué Seedance 2.0 representa un salto en generación de videos con IA

Esta herramienta se distingue por su capacidad para procesar múltiples elementos de entrada y generar resultados con una fluidez y cohesión visual por encima de muchas o todas las demás opciones del mercado al día de hoy. Su arquitectura está diseñada para ofrecer a los usuarios un control detallado sobre la composición y el desarrollo temporal de cada escena.

Una de las características principales de Seedance 2.0 es la posibilidad de generar videos con una duración de hasta 15 segundos continuos. Esta extensión permite desarrollar secuencias más largas sin perder la consistencia visual o presentar degradación en la imagen. La capacidad de mantener la estabilidad de los elementos a lo largo de este tiempo facilita la creación de escenas con movimientos de cámara extensos o acciones secuenciales complejas.

El modelo destaca en la ejecución de transformaciones de personajes u objetos dentro del video. Al generar una evolución de un estado a otro, como la mutación de rasgos faciales o corporales, el sistema realiza la transición de manera gradual. A diferencia de otras plataformas que suelen generar cambios abruptos o cortes en la morfología durante estas transformaciones, Seedance 2.0 suele mantener un efecto orgánico y con realismo fotográfico en cada cuadro del proceso.

La función “Frames to Video” es otra de las herramientas integradas. Esta opción permite a los usuarios establecer una imagen inicial (primer cuadro) y una imagen final (último cuadro) para una misma secuencia. A partir de estos dos puntos de referencia, el modelo se encarga de calcular e ilustrar toda la transición intermedia, asegurando que el paso del punto de partida al punto de llegada tenga una lógica visual y un ritmo adecuado.

El uso de la función de cuadros de inicio y fin simplifica considerablemente la redacción de instrucciones de texto. Al tener las referencias visuales exactas de cómo debe comenzar y terminar el video, el usuario solo requiere ingresar indicaciones muy breves y sencillas para describir el tipo de transición deseada. Esto reduce la dependencia de descripciones excesivamente complejas para lograr transformaciones específicas.

Por otro lado, la herramienta cuenta con una función denominada “Reference to Video”, la cual expande las posibilidades de composición. Mediante esta característica, es posible cargar simultáneamente múltiples archivos, incluyendo diversas imágenes, videos e incluso pistas de sonido. El modelo analiza todos estos elementos y los utiliza como piezas para construir un video unificado, integrando cada componente según las directrices establecidas.

Esa última cualidad me falta aún explorarla más a fondo, pero en mis primeras pruebas (que puedes ver en el video compartido al final de este texto) me encontré con resultados sorprendentes.

El nivel de control direccional sobre estos múltiples elementos es alto. A través del texto, el usuario puede asignar roles precisos a cada archivo cargado, indicando, por ejemplo, qué imagen será el punto de partida, qué elemento aparecerá flotando más adelante o cuál se mostrará dentro de una pantalla. El sistema es capaz de interpretar estas instrucciones secuenciales para ejecutar viajes de cámara, acercamientos y apariciones de objetos en momentos específicos de la línea de tiempo.

En términos de generación de texto integrado, Seedance 2.0 demuestra una notable precisión. El modelo es capaz de renderizar letras, palabras completas y logotipos dentro del entorno del video, manteniéndolos legibles y consistentes a pesar de los movimientos de cámara o los cambios de perspectiva. Esto resulta útil para la aparición de marcas comerciales, etiquetas de productos o letreros en pantallas sin sufrir deformaciones drásticas.

El proceso de renderizado de estas secuencias más elaboradas requiere de tiempos de procesamiento proporcionales a su complejidad. Cuando se solicita un video de 15 segundos que integra múltiples imágenes de referencia, secuencias de video adicionales e instrucciones de movimiento secuencial, la plataforma puede tardar alrededor de 20 minutos en entregar el resultado final. A pesar de este tiempo de trabajo, la herramienta logra seguir las instrucciones con fidelidad, requiriendo muy pocas correcciones posteriores.

Para revisar en detalle estas características y observar los resultados de las pruebas de transformación y composición con múltiples referencias, te invito a ver el video que hice al respecto para mi canal de YouTube.

Mario Cuche