21 millions de chansons — et aucune autorisation : comment l'industrie musicale a découvert qu'elle s'était entraîné un concurrent

The Atlantic a publié quatre bases de données contenant plus de 21 millions de morceaux utilisés pour l'entraînement de modèles d'IA — sans le consentement des auteurs et sans paiement de droits d'auteur. Taylor Swift et Bad Bunny ne sont que les noms les plus connus parmi des millions d'autres.

25
Partager :
Тейлор Свіфт (Фото: Depositphotos)

Le journaliste d'The Atlantic Alex Reisner a identifié quatre ensembles de données ouvertes activement partagées au sein de la communauté des développeurs d'IA. Ensemble, ils contiennent plus de 21 millions de pistes musicales : le plus grand en contient environ 12,3 millions de compositions, le deuxième 9,7 millions, et les deux autres environ 100 000 enregistrements chacun.

Parmi eux se trouvent des chansons de Taylor Swift, Bad Bunny et de millions d'autres artistes. Mais la valeur principale de la publication ne réside pas dans les noms connus : pour la première fois, les détenteurs de droits ont obtenu un outil de vérification — des bases de données de recherche où ils peuvent vérifier si une piste spécifique a été incluse dans l'ensemble d'entraînement.

Pourquoi cela a-t-il été possible

Les réseaux de neurones ne conservent pas les enregistrements originaux — ils assimilent les modèles statistiques. C'est exactement pour cette raison que, comme le souligne l'OMPI dans son examen, l'audit est pratiquement impossible : les entreprises peuvent simplement supprimer les données d'entraînement originales. Ni Suno ni Udio — les deux plus grands services musicaux génératifs — n'ont révélé la composition de leurs ensembles de données à ce jour.

« Si le modèle a été entraîné sur la musique de Taylor Swift et d'artistes peu connus — tous devraient-ils recevoir une compensation égale ? »

Dorian Herrmanns, chercheuse en IA musicale, article d'OMPI Magazine

Ce n'est pas une question rhétorique — c'est un problème juridique et économique non résolu. Les modèles de redevances existants ne prévoient pas de compensation pour l'utilisation d'œuvres comme données d'entraînement, seulement pour la reproduction ou les œuvres dérivées.

Les procès sont en cours, mais lentement

En juin 2024, la RIAA, au nom de Sony Music, UMG et Warner Records, a intenté des procès contre Suno et Udio — pour violation des droits d'auteur « à une échelle qui choque ». Plus tard, les accusations ont été complétées : les deux entreprises auraient apparemment raclé le matériel de YouTube. En octobre 2025, UMG a conclu un règlement à l'amiable avec Udio, qui prévoit à la fois un accord de licence et un « règlement compensatoire ». Sony et Warner ont refusé le règlement — le procès contre Udio se poursuit, Suno se défend en vertu de la doctrine du fair use.

Parallèlement, Taylor Swift a déposé en 2025 une demande de marque commerciale sur sa propre voix et son image — une protection contre les deepfakes et l'utilisation non autorisée dans les produits d'IA.

Ce que cela signifie en chiffres

  • 21+ millions de pistes — volume des quatre ensembles de données détectés ; l'ampleur réelle de l'utilisation est probablement plus importante
  • 0 $ — redevances reçues par la plupart des auteurs de ces 21 millions pour l'utilisation de leurs œuvres comme données d'entraînement
  • Règlement UMG–Udio — premier précédent de paiement, mais sans divulgation du montant et sans couverture d'autres plateformes
  • Suno et Udio — seulement deux des nombreuses entreprises développant l'IA musicale générative

Ed Newton-Rex, fondateur de l'organisation à but non lucratif Fairly Trained, qui réclame un paiement aux auteurs pour les données d'entraînement, a qualifié la situation dans son discours-programme lors de la conférence ISMIR 2024 d'« appropriation structurelle » : l'industrie a construit des outils de remplacement des créateurs basés sur le travail de ces mêmes créateurs.

La publication d'The Atlantic a rendu invisible visible. Mais voir n'est pas encore être compensé : aucun des quatre ensembles de données ne contient de mécanisme de refus ou de paiement, seulement la possibilité de vérifier que vous avez déjà été utilisé.

Si Suno perd l'affaire du fair use au tribunal — cela établira un précédent qui obligera à réécrire les conditions pour toute l'industrie de l'audio génératif. Mais si elle gagne, les bases de données comme celles publiées par The Atlantic resteront simplement un musée de propriété d'autrui sans adresse de plainte.

Actualités mondiales