La IA abre los ojos: Gemini Agentic Vision sorprende

Los LMM (Large Multimodal Models) son una realidad hace ya un par de años, pero hasta ahora no había visto nada al nivel de lo que está logrando la Agentic Vision de Gemini.

Eso sí, antes de profundizar en sus virtudes, remarcar que estas nuevas facultades de “visión” no son más que una ampliación del modelo de reconocimiento de imágenes que ya usaba Gemini, o uno entrenado de la misma forma, pero con más datos/imágenes.

Por lo tanto, no se trata de un modelo que ve de verdad, como lo hacemos con nuestros ojos. Para enfatizar esto, hice un primer video sobre la Agentic Vision de Gemini, con ejemplos muy claros, que puedes revisar a continuación.

Agentic Vision de Gemini me sorprende

Para desarrollar un análisis más profundo, empecé a poner a prueba la visión de Gemini (a la que a la fecha se accede por AI Studio) con imágenes que incluían ciertas complejidades.

Primero, usé representaciones sintéticas y en 8 bits de personajes icónicos. Me sorprendió cómo la IA “reconoció” formas y contextos. Por ejemplo, ante la imagen sintética de un sacerdote, fue capaz de identificarlo como el Padre Karras de El Exorcista, simplemente porque le di la pista de que estábamos hablando de cine. Sin embargo, no es infalible; en un momento llegó a confundir a un Power Ranger con Santa Claus.

Otra prueba interesante fue buscar a Wally (o Waldo) en una de las clásicas escenas de sus libros. Lo fascinante aquí no fue solo el resultado, sino el proceso. La herramienta realizaba sus propios “escaneos” y zooms digitales, analizando la imagen por sectores. Aunque falló en su primer intento, en la segunda oportunidad pudo dar con el personaje.

Finalmente, quise ver si esta tecnología está lista para el trabajo serio, como realizar el inventario automático de una bodega. Le pedí contar más de cien cajas en estantes, ignorando las que estaban en el suelo.

Aquí es donde aparece la “letra chica”: aunque visualmente el trabajo parecía impecable, la IA cometió errores de conteo por una o dos unidades. En un entorno logístico, un error así puede ser crítico. Lo que demuestra que, si bien estamos ante un avance increíble, todavía no podemos prescindir de la supervisión humana.

Si quieres saber exactamente cómo se comportó la Inteligencia Artificial en esas y otras pruebas que hice, y cómo puedes replicar estos experimentos, puedes ver el siguiente video.

Mario Cuche