Un groupe de pirates informatiques vient de choquer le monde de la technologie et de la musique en annonçant avoir collecte et stocke environ 300 teraoctets de donnees de Spotify la plus grande plateforme de streaming de musique au monde.
Ce stock de donnees comprend des dizaines de millions de fichiers audio de photos de couverture d'albums et une enorme quantite de super donnees qui sont actuellement publiees via Anna's Archive un moteur de recherche open source pour les bibliotheques souterraines.
Selon les informations publiees l'Anna's Archive stocke actuellement 86 millions de fichiers audio et plus de 256 millions de lignes de super donnees de chansons avec une capacite totale d'environ 300 To.
Les super donnees musicales comprennent le nom de l'artiste le musicien le producteur le genre l'heure la date de sortie et le code ISRC le code d'identification international pour chaque enregistrement.
Avec 186 millions de codes ISRC cette plateforme se declare posseder la plus grande base de donnees de super-donnees musicales publiques au monde.
Le groupe derriere Anna's Archive a declare que leur objectif etait de construire un 'bibliotheque de conservation' de musique complet permettant a quiconque a suffisamment de capacite de stockage de copier.
Selon le plan outre les megadonnees qui ont ete publiees 86 millions de fichiers musicaux - soit environ 99 6 % du nombre total d'ecoutes sur Spotify - seront publies respectivement via des torrents classes en fonction de leur popularite.
Cette initiative est particulierement remarquable dans le contexte du developpement rapide de l'intelligence artificielle. Les entreprises d'IA dependent desormais fortement des donnees a grande echelle pour former des modeles du texte aux images en passant par le son.
Un si vaste stock de donnees musicales pourrait devenir une ressource attrayante pour la formation de modeles d'IA de creation musicale d'analyse sonore ou multimedias augmentant les tensions existantes entre l'industrie de l'IA et les proprietaires de droits d'auteur.
Spotify a confirme avoir detecte et desactive les comptes lies a la copie illegale de donnees tout en deployant des mesures de protection supplementaires.
Selon l'entreprise l'enquete preliminaire montre qu'une tierce partie a collecte des megadonnees publiques et utilise des mesures illegales pour franchir le systeme de gestion du droit d'auteur numerique (DRM) afin d'acceder a une partie des fichiers audio.
Anna's Archive fonctionne comme un moteur de recherche aidant les utilisateurs a acceder au contenu stocke dans d'autres sources sur Internet et affirmant que la plateforme elle-meme ne stocke pas directement du contenu qui viole le droit d'auteur.
Auparavant l'entrepot de donnees de la plateforme etait principalement constitue de livres de recherche et de documents academiques. L'expansion vers les super donnees et la musique marque une nouvelle etape et fait d'Anna's Archive une cible frequente dans les demandes de suppression de contenu aupres des proprietaires de droits d'auteur.
Le groupe de travail Anna's Archive estime que les bibliotheques musicales actuelles se concentrent trop sur les artistes celebres et les fichiers de haute qualite ce qui rend difficile la conservation de l'ensemble de l'histoire de la musique humaine.
En privilegiant l'integrite et en utilisant l'indice de popularite de Spotify ils ont annonce qu'ils souhaitaient creer une liste de musique representative de tous les enregistrements qui ont ete publies.
Bien qu'il soit justifie sous le nom de 'preservation culturelle' cet entrepot de donnees de 300 To souleve toujours de grandes questions sur la frontiere entre le stockage la violation du droit d'auteur et l'exploitation des donnees a l'ere de l'IA ou la valeur des donnees devient de plus en plus sensible et controversee.