Imagen y video con IA: Línea de tiempo

Si los LLM fueron el “big bang” de la IA generativa aplicada al texto, la generación de imagen y video con IA fue su hermana que llegó casi al mismo tiempo y con igual fuerza. Mientras el mundo se maravillaba con ChatGPT escribiendo textos, otra revolución estaba ocurriendo en paralelo: las máquinas aprendían a “ver” (nunca como humano, pero de forma funcionalmente equivalente en muchos casos), generar y editar imágenes.

El primer gran hito fue DALL-E v1 de OpenAI, lanzado en enero de 2021. En ese momento pocos le prestaron la atención que merecía: podías escribir una descripción y el modelo generaba una imagen. Tosca, imperfecta, pero real. Era la primera vez que un modelo de IA generativa de imágenes entraba en el radar masivo. Meses después, en diciembre de ese mismo año, Stability AI liberó el borrador inicial de Stable Diffusion, y con eso cambió todo: por primera vez había un modelo open source capaz de generar imágenes, y cualquiera podía usarlo, modificarlo y construir sobre él.

2022 fue el año en que este ecosistema empezó a tomar forma. Midjourney apareció en febrero con su v1 y se convirtió rápidamente en el favorito de artistas y creativos por su estética particular. OpenAI lanzó DALL-E 2 en abril, con un salto de calidad impresionante en coherencia y resolución. Stability AI siguió iterando con Stable Diffusion 1.4, 1.5, 2.0 y 2.1, consolidando la base open source. Y Midjourney cerró el año con su v4, que ya generaba imágenes que dejaban a la gente con la boca abierta.

Pero fue 2023 donde comenzó la verdadera carrera. Midjourney lanzó su v5 y v5.2, alcanzando un fotorrealismo que empezó a confundir a la gente en redes sociales. Adobe entró al juego con Firefly 1 en beta, apostando por la generación segura y con derechos comerciales. Stability AI liberó SDXL 1.0, el modelo open source más potente hasta entonces. OpenAI sorprendió con DALL-E 3, integrado directamente en ChatGPT. Y lo más importante: Runway lanzó Gen-2 en junio, la primera herramienta de generación de video con IA que realmente funcionaba. Ese fue el momento en que el video entró en la ecuación.

2024 fue el año de Sora y la guerra del video. OpenAI presentó Sora en febrero —solo en demo, sin acceso público— y el mundo se paralizó: videos de hasta un minuto, coherentes, cinematográficos, generados desde texto. Fue el equivalente al momento ChatGPT para la generación visual. Pero Sora no estaba solo: Luma AI lanzó Dream Machine, Kling 1.0 apareció desde China con una calidad brutal, Pika Labs lanzó sus versiones 1.5 y 2.0, y Runway respondió con Gen-3 Alpha.

Google también entró fuerte con Imagen 3 para imágenes y Veo 2 para video. En imágenes, el hito fue FLUX.1 de Black Forest Labs en julio, un modelo open source que superó a Midjourney en fotorrealismo y se convirtió en el nuevo estándar para la comunidad creativa. Midjourney cerró 2024 con su v6.1 y Tencent aportó HunyuanVideo, otro modelo open source de video de alta calidad.

2025: Explota la generación de imagen y video con IA

2025 fue cuando todo esto dejó de ser experimental y se volvió cotidiano. GPT-4o con generación de imágenes llegó en marzo y democratizó la creación visual dentro del ecosistema de ChatGPT. Midjourney v7 marcó otro salto estético. Alibaba lanzó Wan2.1 y Wan2.2, modelos open source de video que pusieron en jaque a las soluciones comerciales. Google presentó Veo 3 con audio integrado en mayo, un hito enorme: por primera vez un modelo generaba video con sonido sincronizado. Kling siguió iterando agresivamente con sus versiones 2.0, 2.1 y 2.5 Turbo. Luma AI lanzó Ray 2, Runway respondió con Act-One / Gen-4, y Adobe consolidó su suite creativa con Firefly Image Model 5 y un editor de video integrado en MAX 2025. Para imágenes, Black Forest siguió empujando con FLUX 2.0 Pro, 2.5 Ultra y FLUX.2, mientras Google aportaba modelos integrados con Gemini para imagen.

Ya en 2026, la aceleración no muestra señales de freno. Google lanzó Veo 3.1 e Imagen 4 en enero, Runway presentó Gen-5 en febrero, Stability AI liberó Stable Diffusion 4, Kling llegó a su versión 3.0 combinando imagen y video, y OpenAI actualizó su generación de imágenes con GPT-4o Image Gen v2 en marzo. Hoy ya no hablamos solo de “generar una imagen bonita”: hablamos de producción audiovisual asistida por IA, donde un creador individual puede competir en calidad con equipos de producción completos.

Todo esto puede parecer un caos de nombres y versiones, así que para ordenar esta explosión visual hice una línea de tiempo interactiva con los principales modelos de generación de imagen y video lanzados entre 2021 y 2026: 71 modelos de 15 empresas —OpenAI, Stability AI, Midjourney, Adobe, Meta, Runway, Ideogram, Google, Luma AI, Black Forest, Kling AI, Pika Labs, Hailuo AI, Tencent y Alibaba— desde el primer DALL-E hasta los últimos Gen-5, Veo 3.1 y Kling 3.0. Te invito a explorarla modelo por modelo y usarla como mapa de referencia del estado del arte en IA visual generativa.

LÍNEA DE TIEMPO DE GENERADORES DE IMAGEN Y VIDEO CON IA 2021-2026

Mario Cuche