Журналіст The Atlantic Алекс Райснер ідентифікував чотири відкриті датасети, якими активно ділилися всередині спільноти розробників ШІ. Разом вони містять понад 21 мільйон музичних треків: найбільший — близько 12,3 мільйона композицій, другий — 9,7 мільйона, ще два — приблизно по 100 000 записів кожен.
Серед них — пісні Тейлор Свіфт, Bad Bunny та ще мільйонів виконавців. Але головна цінність публікації не в відомих іменах: вперше правовласники отримали інструмент верифікації — пошукові бази, де можна перевірити, чи потрапив конкретний трек у тренувальний набір.
Чому це стало можливим
Нейромережі не зберігають оригінальні записи — вони засвоюють статистичні патерни. Саме тому, як зазначає WIPO у своєму огляді, аудит практично неможливий: компанії можуть просто видалити вихідні тренувальні дані. Ані Suno, ані Udio — два найбільших генеративних музичних сервіси — досі не розкрили склад своїх датасетів.
«Якщо модель навчали на музиці Тейлор Свіфт і маловідомих виконавців — чи мають усі отримати однакову компенсацію?»
Доріан Геррманс, дослідниця музичного ШІ, стаття WIPO Magazine
Це не риторичне запитання — це нерозв'язана юридична і економічна проблема. Існуючі моделі роялті не передбачають компенсації за використання творів як тренувальних даних, лише за відтворення або похідні твори.
Суди вже йдуть, але повільно
У червні 2024 року RIAA від імені Sony Music, UMG та Warner Records подала позови проти Suno і Udio — за порушення авторських прав «у масштабах, що шокують». Пізніше звинувачення доповнили: обидві компанії нібито скрейпили матеріал із YouTube. У жовтні 2025 року UMG уклала мирову угоду з Udio, яка передбачає і ліцензійний договір, і «компенсаційне врегулювання». Sony та Warner від угоди відмовилися — судовий процес проти Udio продовжується, Suno захищається через доктрину fair use.
Паралельно Тейлор Свіфт у 2025 році подала заявку на торговельну марку на власний голос і образ — захист від діпфейків та несанкціонованого використання в ШІ-продуктах.
Що це означає в цифрах
- 21+ млн треків — обсяг чотирьох виявлених датасетів; реальний масштаб використання, ймовірно, більший
- $0 — роялті, отримані більшістю авторів із цих 21 мільйона за використання їхніх творів як тренувальних даних
- Мирова UMG–Udio — перший прецедент виплати, але без розкриття суми та без охоплення інших платформ
- Suno і Udio — лише дві з багатьох компаній, що розробляють генеративний музичний ШІ
Ед Ньютон-Рекс, засновник некомерційної організації Fairly Trained, яка домагається оплати авторам за тренувальні дані, у програмній доповіді на конференції ISMIR 2024 назвав ситуацію «структурним привласненням»: індустрія побудувала інструменти заміни творців на основі праці цих самих творців.
Публікація The Atlantic зробила невидиме видимим. Але бачити — ще не означає отримати компенсацію: жоден із чотирьох датасетів не містить механізму opt-out чи виплати, лише можливість переконатися, що тебе вже використали.
Якщо Suno програє справу fair use у суді — це встановить прецедент, який змусить переписати умови для всієї індустрії генеративного аудіо. Але якщо виграє, то бази даних, подібні до опублікованих The Atlantic, залишаться лише музеєм чужої власності без адреси для позову.