Decoupled DiLoCo: la nueva apuesta de Google DeepMind

Decoupled DiLoCo es la nueva arquitectura con la que Google DeepMind quiere resolver uno de los cuellos de botella más caros del desarrollo de IA: entrenar modelos grandes sin depender de que miles de chips sigan perfectamente sincronizados todo el tiempo. La propuesta busca que el entrenamiento continúe incluso cuando una parte de la infraestructura falla o se ralentiza, algo cada vez más importante a medida que los modelos crecen y el cómputo se reparte entre varias regiones.

La idea central es dividir el entrenamiento en varias “islas” de cómputo que trabajan de forma más independiente y se comunican de manera asíncrona. En lugar de detener todo el proceso cuando una zona tiene un problema, el sistema aísla esa interrupción y deja que el resto siga avanzando. Según Google DeepMind, esto reduce de forma drástica la necesidad de ancho de banda entre centros de datos y mejora la continuidad del entrenamiento sin perder rendimiento final en los benchmarks del modelo.

Cómo funciona Decoupled DiLoCo y qué mostró Google DeepMind

En su explicación técnica, Google DeepMind describe Decoupled DiLoCo como una evolución de DiLoCo, un enfoque de entrenamiento distribuido de baja comunicación. La novedad es que ahora el sistema rompe con la sincronización rígida típica del entrenamiento tradicional. Cada grupo de chips puede hacer pasos locales de optimización y luego enviar actualizaciones parciales a un sincronizador central, que agrega resultados sin esperar a que todos lleguen al mismo tiempo.

Ese cambio tiene un efecto práctico inmediato: si una unidad se cae, el resto no queda bloqueado. Google DeepMind asegura que el sistema incluso puede reintegrar automáticamente las unidades que vuelven a estar disponibles. En sus pruebas, introdujo fallas artificiales de hardware para comprobar ese comportamiento y reportó “cero tiempo de inactividad global” en los escenarios simulados.

Los números que destacó la compañía son relevantes. En una comparación incluida en su blog, el método redujo el ancho de banda requerido entre ocho centros de datos desde 198 Gbps hasta 0,84 Gbps. Además, en simulaciones con tasas altas de fallas de hardware, el nivel de trabajo útil se mantuvo en 88%, frente a 27% con métodos más convencionales. En experimentos reales, Google DeepMind dice que el rendimiento de aprendizaje se mantuvo prácticamente al nivel de los enfoques clásicos.

La empresa también afirmó que logró entrenar un modelo de 12.000 millones de parámetros repartido entre cuatro regiones de Estados Unidos usando enlaces de red de 2 a 5 Gbps, una exigencia mucho más realista que la de las arquitecturas que dependen de interconexiones dedicadas mucho más costosas. Otro punto llamativo es que Decoupled DiLoCo permitió mezclar generaciones distintas de TPU en una misma corrida de entrenamiento sin degradar el resultado final.

Por qué Decoupled DiLoCo puede cambiar el costo y la escala del entrenamiento de IA

La relevancia de Decoupled DiLoCo no está en una función visible para el usuario final, sino en la capa que hace posible lanzar modelos más grandes y aprovechar mejor la infraestructura existente. Si este enfoque se consolida, las empresas de IA podrían usar capacidad ociosa repartida en distintos centros de datos, tolerar mejor fallas inevitables y alargar la vida útil de hardware que hoy queda fuera de los entrenamientos más exigentes.

Eso tiene impacto directo en costos, resiliencia y velocidad de despliegue. En vez de esperar que toda la infraestructura sea idéntica y esté en el mismo lugar, un laboratorio podría sumar capacidad dispersa, mezclar equipos antiguos y nuevos, y seguir entrenando sin que una sola interrupción arruine el trabajo completo. Para un mercado donde el acceso a chips sigue siendo limitado y caro, esa flexibilidad importa mucho.

También hay una lectura competitiva. La carrera de IA ya no depende solo de tener mejores modelos, sino de entrenarlos de forma más eficiente y más estable. Avances como Decoupled DiLoCo apuntan a esa parte menos visible del negocio, pero muy decisiva. En la práctica, una infraestructura más robusta puede traducirse en modelos que lleguen antes, cuesten menos de operar y escalen con menos fricción hacia productos empresariales, asistentes especializados y sistemas de agentes. Para entender cómo esa capa de infraestructura termina empujando productos orientados al trabajo real, vale la pena revisar también cómo Google está convirtiendo Gemini Enterprise en una plataforma para agentes de IA.

La publicación todavía no significa que toda la industria vaya a cambiar de arquitectura de un día para otro. Pero sí deja una señal concreta: el entrenamiento de frontera empieza a moverse desde centros de cómputo hipercentralizados y frágiles hacia esquemas más distribuidos, tolerantes a fallas y menos dependientes de redes extremas. Para quienes siguen la evolución del mercado, Decoupled DiLoCo es una noticia importante porque ataca una limitación estructural del negocio de la IA, no solo un detalle técnico de laboratorio.

Si los resultados se replican a mayor escala, Google DeepMind habrá dado un paso relevante para abaratar y flexibilizar el desarrollo de futuros modelos. Y eso, aunque no se vea en una interfaz, suele terminar influyendo en el ritmo al que llegan nuevas capacidades al resto del ecosistema.

Fuentes

Mario Cuche