NVIDIA presenta 3 avances en IA física

NVIDIA presentó 3 investigaciones de IA física centradas en problemas muy concretos: cómo hacer que un robot agarre objetos nuevos sin reentrenarse para cada pinza, cómo reducir el costo computacional de la conducción autónoma y cómo entrenar agentes en mundos virtuales para que luego se adapten mejor a entornos distintos.

Los proyectos se llaman GraspGen-X, LCDrive y NitroGen. No son productos de consumo: son trabajos de investigación y herramientas para desarrolladores, pero muestran hacia dónde quiere empujar NVIDIA su plataforma para robots, vehículos y agentes que actúan fuera del chat.

La IA física es la parte de la IA que no solo genera texto o imágenes, sino que tiene que percibir un entorno y actuar dentro de él, ya sea con un brazo robótico, con un auto o con un agente en una simulación.

Un modelo fundacional, en este contexto, es un modelo base entrenado con muchos datos para después adaptarse a varias tareas. Y entrenamiento a escala significa usar cantidades muy grandes de datos, simulaciones o interacciones para que el sistema no quede limitado a un solo caso.

La IA física de NVIDIA: GraspGen-X, LCDrive y NitroGen

El primer proyecto, GraspGen-X, apunta al agarre robótico. NVIDIA lo describe como un modelo fundacional para grasping en zero-shot, es decir, capaz de proponer agarres para objetos y pinzas que no vio durante el entrenamiento.

Según la compañía, fue entrenado con 2.000 millones de agarres simulados sobre muchas formas de objetos y configuraciones de grippers. La idea es reducir un cuello de botella habitual en robótica: cuando cambia la pinza o cambia el objeto, muchas veces hay que volver a entrenar casi todo el sistema.

El segundo trabajo, LCDrive, se mueve en conducción autónoma. Aquí el problema no es solo decidir bien, sino hacerlo con la latencia y la capacidad de cómputo que realmente puede llevar un vehículo. NVIDIA explicó que LCDrive reemplaza el razonamiento basado en texto por representaciones latentes compactas. En vez de generar pasos intermedios en lenguaje natural, el modelo usa estados comprimidos ligados a la acción y a la predicción del entorno. La empresa afirma que con ese enfoque mantiene una calidad de trayectoria comparable y usa cerca de la mitad de los tokens.

El tercer proyecto, NitroGen, toma una ruta distinta: entrenar agentes en videojuegos para mejorar su capacidad de generalizar. NVIDIA indicó que usa la arquitectura del modelo fundacional Isaac GR00T y que fue entrenado con más de 1.000 juegos y 40.000 horas de interacción.

Tanto la página del modelo en Hugging Face como el repositorio en GitHub lo presentan como un proyecto abierto de investigación. La documentación también aclara sus límites: funciona mejor en juegos con gamepad y no está pensado como un agente universal listo para cualquier videojuego o tarea del mundo real.

Cómo puede cambiar el trabajo en robótica, simulación y conducción autónoma

Lo más práctico de estos anuncios que involucran IA física no está en una promesa de corto plazo para usuarios comunes, sino en el tipo de trabajo que pueden acelerar dentro de laboratorios y equipos de producto. En robótica, si un sistema como GraspGen-X reduce la dependencia de entrenar una política por cada pinza, el costo de probar nuevos diseños baja y el desarrollo se vuelve menos artesanal.

En conducción autónoma, si LCDrive consigue conservar desempeño con menos tokens, la discusión deja de ser solo “qué modelo decide mejor” y pasa también por “qué modelo decide a tiempo dentro del hardware del auto”.

Con NitroGen, el movimiento es igual de concreto. Entrenar agentes en videojuegos no significa que un personaje de juego se convierta automáticamente en un robot doméstico, pero sí ofrece entornos variados, con objetivos claros y señales de éxito medibles, algo difícil y caro de montar desde cero en el mundo físico. Esa lógica de llevar la IA fuera del navegador y hacia tareas operativas ya aparece en otros frentes, como mostró el caso del Hospital de Niños de Boston con ChatGPT, aunque en salud, robótica y automoción las exigencias de validación son muy distintas.

También hay una lectura de mercado. NVIDIA no presentó estos trabajos de IA física como gadgets ni como funciones listas para venderse mañana, sino como piezas de una cadena más amplia: simulación, datos sintéticos, entrenamiento, evaluación y despliegue. Su segundo anuncio en CVPR, centrado en nuevas skills para IA física, refuerza esa misma línea. La apuesta no es solo tener modelos, sino ofrecer el entorno técnico para que otros construyan sobre ellos.

Fuentes:

Mario Cuche