Estudio: Todas las IA fracasan ante el trabajo real

Mientras todos los agentes de IA fracasan ante trabajos reales, se repite el mismo discurso desde Silicon Valley: estamos a la vuelta de la esquina de una era donde los modelos de IA reemplazarán a la mayoría de los profesionales.

A principios de 2025, Dario Amodei, CEO de Anthropic, repetía prácticamente lo mismo que dice hoy: que estamos a meses de que la IA escriba el 100% del código. Pero, tras analizar los datos fríos, la pregunta es inevitable: ¿cuánto de esto es progreso real y cuánto es marketing para mantener infladas las valoraciones bursátiles?

Se habla mucho de olas de despidos masivos “causados por la IA”, pero la realidad es más matizada. Muchas de estas salidas no tienen nada que ver con la tecnología en sí. De hecho, consultoras de peso como Gartner y Gallup ya advierten que al menos la mitad de las empresas en EEUU que intentaron sustituir humanos por IA terminarán recontratando personal para funciones similares antes de 2027.

Agentes de IA fracasan con trabajos reales

El Center for AI Safety publicó recientemente un índice que pone a los agentes autónomos actuales en una posición difícil de defender. Lo clave del estudio es que no se limitaron a preguntas teóricas ni benchmarks propuestos por las empresas de IA.

Lo que hicieron fue tomar 240 requerimientos reales extraídos de Upwork —tareas por las que clientes reales pagan dinero— como diseñar planos arquitectónicos, crear modelos 3D o programar videojuegos. Con esos trabajos pusieron a prueba a 6 agentes de IA de las principales compañías, como OpenAI y Anthropic.

El resultado fue categórico. El agente más “exitoso” (Manus) completó satisfactoriamente solo el 2,5% de los trabajos. A pesar de recibir exactamente las mismas instrucciones y archivos que recibiría un profesional humano, los agentes fallaron de forma sistemática. Más del 45% de las entregas tenían calidad mediocre, un 35% estaban incompletas y un 17% contenían archivos corruptos o directamente vacíos.

Hay quienes argumentan que si se hubieran usado “enjambres de agentes” —varias IAs colaborando entre sí— los resultados habrían sido distintos. Habría que verlo. Pero hoy, cualquier empresa que busca un resultado profesional no puede entregarle su proyecto a un agente autónomo y esperar que aparezca terminado por arte de magia.

La conclusión es clara: la IA es una herramienta poderosa, pero el “reemplazo total” del profesional sigue siendo, por ahora, una fantasía. La brecha entre generar un texto coherente y entregar un proyecto técnico funcional no es una grieta; es un abismo.

Mario Cuche