La música con IA se apoya en volúmenes de material mucho mayores de lo que suele verse en los anuncios de producto. Una investigación de The Atlantic encontró cuatro grandes datasets musicales compartidos en Internet, entre ellos uno con 12 millones de pistas y otro con 9 millones.

Esos archivos no es que estuvieran guardados en los servidores de Suno, Udio o Google, sino que existían colecciones enormes disponibles para investigadores y desarrolladores que trabajan la música con IA.

Entrando en detalles, según la investigación, tres de esos datasets no eran carpetas con canciones descargadas, sino listas masivas de enlaces hacia canciones alojadas en servicios como YouTube o Spotify. Es decir, funcionaban como un índice: el dataset indicaba dónde encontrar cada canción, y luego otras herramientas podían intentar obtener el audio desde esas plataformas.

Otro dataset sí incluía archivos MP3 y provenía de Free Music Archive, un archivo musical abierto para escuchar y descargar, aunque eso no significa automáticamente que todo su contenido pueda usarse comercialmente para entrenar modelos.

Qué muestran los datasets hallados en la investigación

Según The Atlantic, las cuatro colecciones incluyen música de artistas masivos y también de catálogos menos visibles. Tres estaban estructuradas como listados de enlaces hacia plataformas externas, principalmente YouTube o Spotify. En esos casos, el dataset no alojaba necesariamente la canción; alojaba la referencia para encontrarla. El cuarto caso era distinto: incluía archivos MP3 asociados a Free Music Archive.

La investigación también señala que esas colecciones circularon dentro de espacios técnicos usados para compartir datos de IA y recursos de investigación. Esto importa para entender la cadena: una plataforma puede alojar la canción original, un dataset puede guardar solo el enlace, una herramienta puede descargar el audio y un desarrollador puede usarlo para entrenar o evaluar un modelo. Son pasos distintos, y mezclarlos puede llevar a una lectura equivocada del caso.

La escala descrita se parece a la de sistemas ya documentados públicamente. En un escrito judicial de 2024, Suno sostuvo ante el tribunal que sus datos de entrenamiento incluyen, en esencia, archivos musicales de calidad razonable accesibles en el internet abierto, respetando muros de pago y contraseñas. Esa es la posición legal de la empresa en el caso, no una verificación independiente de terceros, pero sirve para dimensionar el volumen que la propia compañía reconoce como parte de su entrenamiento.

Una máquina de entrenamiento de IA aspira una montaña de discos musicales para convertirlos en datos
Millones de canciones han sido usadas como datos de entrenamiento para sistemas de música con IA.

Google también ha dejado rastros públicos de la magnitud de este trabajo, aunque en contextos distintos. El paper de MusicLM señaló que partes del sistema se entrenaron con un conjunto de cinco millones de clips de audio, equivalentes a 280.000 horas de música.

Otro paper de Google sobre MuLan describió entrenamiento con 44 millones de grabaciones musicales. Esos documentos no demuestran que los productos comerciales actuales usen exactamente los mismos datos, pero sí muestran que el desarrollo de modelos de música con IA a gran escala lleva varios años apoyándose en colecciones enormes.

En paralelo, Google afirma que Lyria 3 usa materiales que YouTube y Google tienen derecho a utilizar bajo sus términos, acuerdos con socios y la ley aplicable. La empresa también dice que su sistema no busca imitar artistas concretos y que incorpora medidas como SynthID para marcar contenido generado. Esa explicación define la posición de Google sobre sus fuentes de entrenamiento y sus controles, no resuelve la disputa general sobre consentimiento, licencias y límites del uso de obras musicales en IA.

Música con IA: presión legal, transparencia y efecto en plataformas

La dimensión del problema ya se ve en las plataformas de distribución. Deezer informó en abril que recibe casi 75.000 pistas generadas de música con IA al día, cerca del 44% de todas las subidas diarias. Aun así, la empresa dijo que ese material representa entre 1% y 3% de las reproducciones totales, y que la mayoría de esos streams detectados están asociados a fraude. Es una señal clara de que la producción sintética está creciendo más rápido que su consumo real.

Para artistas, sellos y plataformas, el debate no gira solo en torno a si una canción final se parece demasiado a otra. También afecta cómo se recopila el material de partida, quién autoriza ese uso, qué licencias existen y qué herramientas tienen los creadores para excluir sus obras.

En ese punto, la transparencia sigue siendo baja: muchas compañías consideran confidenciales sus datos de entrenamiento, mientras las demandas buscan precisamente obligarlas a detallar qué copiaron y cómo lo usaron.

E hallazgo ayuda a leer con más cuidado el auge de la música con IA. Cuando una plataforma promete crear pistas nuevas en segundos, detrás suele haber una infraestructura construida con colecciones masivas de audio, filtros de seguridad, disputas por derechos y reglas todavía en formación. Ese mismo debate sobre trazabilidad y límites también aparece en discusiones más amplias sobre regulación de IA.

Fuentes

The Atlantic
Escrito judicial de Suno
Paper de MusicLM
Blog oficial de Google sobre Lyria 3
Deezer Newsroom
RIAA

Recommended Posts
0
Centro de datos de IA de Meta y Reliance proyectado para Jamnagar, IndiaOpenAI