Los agentes de IA están mejorando rápido en pruebas técnicas, pero todavía fallan cuando se les entrega trabajo largo, repetido y difícil de revisar. Esa es la tensión que aparece al mirar juntos dos fuentes recientes: el capítulo de rendimiento técnico del AI Index 2026 de Stanford y el estudio de Microsoft Research LLMs Corrupt Your Documents When You Delegate.
Stanford muestra una industria que avanza a gran velocidad. Los modelos frontera ganaron 30 puntos porcentuales en solo un año en Humanity’s Last Exam, una prueba diseñada para ser difícil incluso para expertos humanos. También señala que benchmarks pensados para durar años se están saturando en meses. En simple: las pruebas que ayer parecían duras dejan de servir muy rápido para medir la frontera real.
Pero el informe también advierte que la imagen es irregular. Los modelos pueden acercarse a humanos en algunas tareas de computador, mejorar en matemáticas o destacar en pruebas profesionales, y aun así fallar en cosas básicas o en contextos donde la confiabilidad importa más que una buena respuesta aislada.
Stanford resume esa tensión con datos claros: en OSWorld (entorno informático unificado diseñado para evaluar tareas abiertas que involucran aplicaciones reales), la precisión de agentes en tareas de computador subió desde cerca de 12% hasta 66,3%, pero los agentes todavía fallan aproximadamente una de cada tres veces en benchmarks estructurados.
Agentes de IA: mejores benchmarks no significan delegación confiable
El estudio de Microsoft Research aterriza esa brecha en un caso muy concreto: qué pasa cuando un modelo debe modificar documentos durante muchas interacciones. Los investigadores Philippe Laban, Tobias Schnabel y Jennifer Neville crearon DELEGATE-52, un benchmark para simular flujos delegados largos en 52 dominios profesionales, desde programación y cristalografía hasta genealogía y notación musical.
La pregunta no era si el modelo podía responder bien una vez, sino si podía recibir instrucciones, editar documentos y mantenerlos sanos después de una cadena larga de trabajo. Esa diferencia es clave para empresas y usuarios. Los agentes de IA que ayudan en una tarea corta pueden parecer útiles. Pero uno que modifica archivos durante veinte interacciones necesita algo más difícil: consistencia, memoria operativa y cuidado con el contenido.
Los resultados son una advertencia fuerte. El paper reporta que incluso modelos frontera como Gemini 3.1 Pro, Claude 4.6 Opus y GPT 5.4 corrompieron en promedio un 25% del contenido documental al final de flujos largos, mientras que el promedio general entre modelos llegó a una degradación de 50%.
Según el estudio, Python fue el único dominio, de 52, donde la mayoría de los modelos alcanzó el umbral de “listo” definido por los autores: 98% o más después de 20 interacciones.
La conclusión es que las empresas deberían mantener a sus agentes de IA bajo supervisión estrecha. La razón es simple. Cuando un sistema borra, cambia o desordena contenido dentro de documentos de trabajo, el problema no siempre aparece de inmediato. Puede quedar escondido hasta que alguien revise el archivo final o, peor, hasta que ese archivo se use para tomar una
Fuentes
Stanford HAI: Technical Performance, AI Index 2026
Microsoft Research: LLMs Corrupt Your Documents When You Delegate
Microsoft / GitHub: DELEGATE-52
The Register: Microsoft researchers find AI models and agents can’t handle long-running tasks


