Журналист The Atlantic Алекс Райснер идентифицировал четыре открытых датасета, активно распространяемых в сообществе разработчиков ИИ. Вместе они содержат более 21 миллиона музыкальных треков: крупнейший — около 12,3 миллиона композиций, второй — 9,7 миллиона, ещё два — примерно по 100 000 записей каждый.
В них — песни Тейлор Свифт, Bad Bunny и миллионов других исполнителей. Но главная ценность публикации не в известных именах: впервые правообладатели получили инструмент верификации — поисковые базы, где можно проверить, попал ли конкретный трек в тренировочный набор.
Почему это стало возможным
Нейросети не сохраняют оригинальные записи — они усваивают статистические паттерны. Именно поэтому, как отмечает WIPO в своем обзоре, аудит практически невозможен: компании могут просто удалить исходные тренировочные данные. Ни Suno, ни Udio — два крупнейших генеративных музыкальных сервиса — до сих пор не раскрыли состав своих датасетов.
«Если модель обучалась на музыке Тейлор Свифт и малоизвестных исполнителей — должны ли все получить одинаковую компенсацию?»
Дориан Германс, исследовательница музыкального ИИ, статья WIPO Magazine
Это не риторический вопрос — это нерешённая юридическая и экономическая проблема. Существующие модели роялти не предусматривают компенсации за использование произведений в качестве тренировочных данных, только за воспроизведение или производные произведения.
Суды уже начались, но медленно
В июне 2024 года RIAA от имени Sony Music, UMG и Warner Records подала иски против Suno и Udio — за нарушение авторских прав «в масштабах, которые шокируют». Позже обвинения дополнили: обе компании якобы скрейпили материал с YouTube. В октябре 2025 года UMG заключила мировое соглашение с Udio, которое предусматривает лицензионный договор и «компенсационное урегулирование». Sony и Warner от соглашения отказались — судебный процесс против Udio продолжается, Suno защищается через доктрину fair use.
Параллельно Тейлор Свифт в 2025 году подала заявку на товарный знак на собственный голос и образ — защита от дипфейков и несанкционированного использования в ИИ-продуктах.
Что это означает в цифрах
- 21+ млн треков — объём четырёх обнаруженных датасетов; реальный масштаб использования, вероятно, больше
- $0 — роялти, полученные большинством авторов из этих 21 миллиона за использование их произведений в качестве тренировочных данных
- Мировое соглашение UMG–Udio — первый прецедент выплаты, но без раскрытия суммы и без охвата других платформ
- Suno и Udio — только две из множества компаний, разрабатывающих генеративный музыкальный ИИ
Эд Ньютон-Рекс, основатель некоммерческой организации Fairly Trained, требующей оплаты авторам за тренировочные данные, в программной речи на конференции ISMIR 2024 назвал ситуацию «структурным присвоением»: индустрия построила инструменты замены творцов на основе труда этих же творцов.
Публикация The Atlantic сделала невидимое видимым. Но видеть — ещё не означает получить компенсацию: ни один из четырёх датасетов не содержит механизма opt-out или выплаты, только возможность убедиться, что тебя уже использовали.
Если Suno проиграет дело fair use в суде — это установит прецедент, который заставит переписать условия для всей индустрии генеративного аудио. Но если выиграет, то базы данных, подобные опубликованным The Atlantic, останутся лишь музеем чужой собственности без адреса для иска.