Google integró una nueva función en su generador de videos más recientemente lanzado, conocido como Gemini OMNI, que permite a los usuarios crear avatares personalizados basados en su propia imagen y voz.

Esta herramienta se encuentra disponible dentro de la interfaz de Gemini y la plataforma de creación de contenido Google Flow, facilitando la generación de videos donde el avatar actúa según las indicaciones de texto que se le proporcionen.

Anteriormente hemos visto este tipo de función en el descontinuado Sora y también en HeyGen, y me parece que lo de Gemini OMNI está a la altura de ambos, sobre todo considerando que aún está en fase beta.

A continuación el paso a paso para hacer tu propio avatar con esta nueva herramienta, y al final de esta texto un video con la demostración y ejemplos de resultados.

Cómo hacer un avatar con tu cara y voz usando Gemini OMNI

Para iniciar el proceso de creación de un avatar personalizado dentro de Gemini, el sistema requiere activar la función de video mediante los menús de carga de archivos.

Una vez seleccionada esta opción, la interfaz redirige al apartado de “avatar”, que actualmente opera en su fase de evaluación beta, permitiendo a las cuentas habilitadas comenzar con el proceso de configuración técnica.

El procedimiento de registro de datos biométricos y de voz se realiza mediante un dispositivo móvil conectado al sistema a través del escaneo de un código QR. El usuario debe autorizar el acceso a la cámara y al micrófono de su teléfono para iniciar una grabación corta en video que capture sus rasgos físicos esenciales.

Gemini OMNI permite crear un avatar personalizado con la imagen y la voz del usuario.

Durante esta captura de datos en el teléfono, el sistema solicita leer en voz alta una secuencia numérica específica en inglés. Esta fase tiene como objetivo registrar el tono, la modulación y las características vocales particulares del usuario para que la Inteligencia Artificial pueda replicarlas de manera sintética en los videos resultantes.

Posteriormente, el software exige que la persona mire fijamente hacia la cámara y luego mueva el rostro de manera secuencial hacia ambos lados. Este movimiento coordinado permite mapear las diferentes perspectivas de la cara y registrar los rasgos tridimensionales necesarios para la correcta animación del avatar digital en el procesamiento posterior.

Una vez completada la carga de los archivos de video y audio desde el teléfono móvil, el procesamiento de la información se sincroniza de forma automática con la cuenta del usuario en Gemini.

El avatar queda disponible en pocos minutos para ser utilizado mediante comandos de texto sencillos dentro del cuadro de diálogo, utilizando una mención directa o etiqueta específica. Al escribir descripciones de texto o “prompts”, la herramienta genera un clip de video donde el avatar clonado reproduce el discurso indicado con la voz sintetizada del usuario.

El sistema es capaz de incrustar el personaje en escenarios complejos y temáticas de ciencia ficción, adaptando vestuarios digitales o trajes robóticos según lo que se detalle en la instrucción escrita. El acceso a esta funcionalidad para generar avatares propios está restringido en la actualidad a usuarios que cuenten con planes de suscripción de pago en Gemini.

Los planes comerciales básicos permiten una cuota de uso fijada en la creación de dos videos personalizados cada cinco horas dentro de la plataforma principal.

De forma complementaria, el avatar creado se almacena y se comparte con la plataforma Google Flow. En esta plataforma de edición, los usuarios con planes activos reciben un total de 200 créditos periódicos destinados a la producción de proyectos audiovisuales más extensos, permitiendo integrar al personaje virtual en diferentes entornos de fondo y presentaciones corporativas o educativas.

Te invito a ver el video que hice al respecto para mi canal de YouTube para observar de manera detallada los pasos de configuración y el resultado final de la clonación de voz e imagen en las pruebas realizadas. A mí me parece que la reproducción con IA del rostro es prácticamente perfecta, pero a la voz aún le falta. Si ves el video, déjame en los comentarios qué te parece a ti.

Mario Cuche