Durante años, las grandes empresas de Inteligencia Artificial nos han vendido una narrativa muy conveniente: sus modelos “aprenden” de manera abstracta y no almacenan libros ni obras protegidas en sus bases de datos, sino que solo procesan patrones lingüísticos. La evidencia técnica está empezando a desmoronar esa defensa corporativa, revelando una realidad incómoda (por decir lo menos) sobre cómo se entrenan realmente los chatbots de IA generativa.
Un reciente estudio de la Universidad de Stanford, titulado “Extraction of Books from Large Language Models”, puso cifras concretas a lo que muchos ya habíamos probado, al menos parcialmente. La investigación demuestra que es posible extraer capítulos enteros, y en algunos casos libros casi completos, directamente de la “memoria” de modelos como ChatGPT, Claude y Gemini. Esto no es una alucinación ni una coincidencia creativa; es una reproducción literal, palabra por palabra, de material protegido por derechos de autor.
Lo más impactante de los datos arrojados por este estudio es la precisión de la extracción. En pruebas realizadas con best-sellers mundiales, los investigadores lograron recuperar más del 90% del texto exacto del primer libro de Harry Potter. Esto echa por tierra la teoría de que la IA solo retiene “ideas generales”. Si un modelo puede recitarte páginas enteras de una novela con la misma fidelidad que un PDF pirateado, la línea entre el “aprendizaje automático” y la simple infracción masiva de copyright se vuelve inexistente.
¿Cómo opera el “almacenamiento” en el conflicto entre IA y derechos de autor?
Es fundamental entender que, aunque técnicamente estas empresas no guarden un archivo .txt del libro en una carpeta o algo similar, el resultado funcional es el mismo. La distinción técnica de si el texto está guardado como bytes o como vectores matemáticos es irrelevante si el output es una copia exacta de una obra por la que no pagaron licencia.
Al analizar los competidores, el estudio deja muy mal parado a modelos como Claude de Anthropic, que mostró una tendencia alarmante a escupir textos protegidos sin apenas resistencia. Esto demuestra que, en la carrera por crear el modelo más capaz y “leído”, muchas empresas han optado por sacrificar la ética y el cumplimiento normativo, “ingiriendo” sin autorización bibliotecas enteras, sin filtrar lo que es dominio público de lo que tiene copyright vigente.
En el caso de OpenAI y ChatGPT, la situación es más engañosa. A primera vista, parecen los más limpios, negándose a reproducir textos cuando se les pide directamente. Pero el estudio confirma que esto no es porque el modelo no tenga los datos, sino porque le han puesto un bozal. Han aplicado capas de filtros post-entrenamiento para detectar y bloquear estas solicitudes, una táctica de “seguridad por oscuridad” que oculta la infracción en lugar de solucionarla.
La prueba de que el contenido sigue ahí latente es la facilidad con la que se pueden romper estos filtros mediante “jailbreaks”. No hace falta ser un hacker experto; basta con cambiar un poco las instrucciones o jugar con el prompt pidiendo el texto en un formato no convencional, alterando caracteres, para que la IA se salte sus propias reglas y empiece a recitar el contenido protegido que supuestamente no tenía.
En mis propias pruebas, quise verificar qué tan robustas son las barreras de Google con Gemini. Me encontré con que, dependiendo de la versión del modelo, las restricciones varían enormemente. Al utilizar las versiones más rápidas o experimentales en AI Studio, Gemini reprodujo el texto de Harry Potter, en inglés y español, línea por línea.
Aún más descarado es el comportamiento de Grok. Este modelo parece operar con una filosofía de “cero restricciones”, entregando capítulos completos a la primera solicitud, sin necesidad de trucos.
Una lucha abierta
Este fenómeno da la razón a demandas actuales como la del New York Times o la de autores como George R.R. Martin agrupados en el Authors Guild. Su argumento central es que estas IAs no son herramientas de investigación, sino productos sustitutivos que compiten deslealmente en el mercado usando la materia prima robada a los creadores. Porque si puedo leer el libro gratis pidiéndoselo a un chatbot, el modelo de negocio editorial colapsa.
La industria tecnológica se escuda en el concepto de “Fair Use” (uso legítimo), argumentando que el entrenamiento es transformativo. Pero la “regurgitación” textual que estamos presenciando rompe ese argumento. No hay nada transformativo en replicar una obra al 95%. Estamos ante la mayor transferencia de riqueza intelectual de la historia, realizada bajo la excusa del progreso tecnológico, y las pruebas de que mienten sobre el almacenamiento de datos son ahora irrefutables.
Si quieres probar por tu propia cuenta cómo estos modelos reproducen textos protegidos, además de conocer el análisis de qué modelos son los más infractores según Stanford, te invito a ver el siguiente video que publiqué la semana pasada.

