Укргосударственный архив передал для обучения ИИ-модели «Сияние» около 10 терабайтов данных — это эквивалент приблизительно 70 000 книг. По словам и.о. министра Минцифры Александра Борнякова, значительная часть этих материалов ранее никогда не использовалась в подобных проектах. Для понимания масштаба: вся англоязычная Википедия весит приблизительно 21 ГБ — архив передал почти в пять раз больше.
Государственный проект без государственных денег
Наиболее необычная деталь «Сияния» — схема финансирования. «Киевстар» полностью берет на себя расходы на разработку, после завершения которой модель будет передана государству. Как объясняет Борняков в колонке для AIN, логика проста: «в условиях войны каждая бюджетная гривня должна идти на оборону». В свою очередь оператор получит репутационный и коммерческий актив — и первенство в доступе к модели.
Техническую основу выбрали открытую: Gemma 3 от Google, которую команда Минцифры вместе с Киевстаром дотренирует на украинских данных. Эта же архитектура уже легла в основу первых украинских LLM — MamayLM и Lapa LLM, а также болгарской BgGPT. То есть «Сияние» — это не построение с нуля, а глубокая адаптация готовой открытой модели под язык и контекст.
50+ организаций и проблема бумаги
К инициативе уже присоединились более 50 организаций — бизнес, медиа, университеты, научные учреждения. Минцифры продолжает открытый набор партнеров: ищут новости, учебники, научную литературу, художественные тексты и архивные материалы.
«Наиболее важная часть работы — подготовка данных. Для эффективной украинской модели нужны не только тексты из интернета, но и исторические архивы и другие письменные источники».
Sud.ua, о подготовке датасета «Сияние»
Но здесь есть конкретная проблема: значительная часть материалов до сих пор существует только на бумаге. Цифровизация архивов, которая в мирное время была бы вопросом удобства, вдруг стала критической для качества модели.
Название выбирали 136 000 человек
«Сияние» победило в голосовании в приложении «Дия» среди более чем 136 000 участников — с результатом 22 601 голос из десяти финалистов, отобранных из более чем 3000 предложений. Отрыв от второго места составил около трех тысяч голосов.
Открытое бета-тестирование для всех желающих запланировано на конец весны 2026 года. Долгосрочная цель амбициознее: к 2030 году Украина хочет войти в топ-3 мира по развитию ИИ.
Реальный вопрос, который выяснится уже во время беты: даст ли 10 ТБ архивных текстов — вместе с остальной частью датасета — достаточно качественное «понимание» контекста, чтобы «Сияние» превзошло общедоступные модели именно там, где те традиционно проваливаются: в нюансах советского бюрократического наследия, диалектах и документах, которые никогда не попадали в интернет.