70 000 книг из архивов и ноль бюджетных гривень: как Украина строит собственный ИИ

«Сияние» — первая национальная большая языковая модель — обучается на архивных текстах, которых ранее не касался ни один ИИ-проект. Но самое необычное в этом государственном проекте — государство его не финансирует.

383
Поделиться:
Ілюстративне фото: Depositphotos

Укргосударственный архив передал для обучения ИИ-модели «Сияние» около 10 терабайтов данных — это эквивалент приблизительно 70 000 книг. По словам и.о. министра Минцифры Александра Борнякова, значительная часть этих материалов ранее никогда не использовалась в подобных проектах. Для понимания масштаба: вся англоязычная Википедия весит приблизительно 21 ГБ — архив передал почти в пять раз больше.

Государственный проект без государственных денег

Наиболее необычная деталь «Сияния» — схема финансирования. «Киевстар» полностью берет на себя расходы на разработку, после завершения которой модель будет передана государству. Как объясняет Борняков в колонке для AIN, логика проста: «в условиях войны каждая бюджетная гривня должна идти на оборону». В свою очередь оператор получит репутационный и коммерческий актив — и первенство в доступе к модели.

Техническую основу выбрали открытую: Gemma 3 от Google, которую команда Минцифры вместе с Киевстаром дотренирует на украинских данных. Эта же архитектура уже легла в основу первых украинских LLM — MamayLM и Lapa LLM, а также болгарской BgGPT. То есть «Сияние» — это не построение с нуля, а глубокая адаптация готовой открытой модели под язык и контекст.

50+ организаций и проблема бумаги

К инициативе уже присоединились более 50 организаций — бизнес, медиа, университеты, научные учреждения. Минцифры продолжает открытый набор партнеров: ищут новости, учебники, научную литературу, художественные тексты и архивные материалы.

«Наиболее важная часть работы — подготовка данных. Для эффективной украинской модели нужны не только тексты из интернета, но и исторические архивы и другие письменные источники».

Sud.ua, о подготовке датасета «Сияние»

Но здесь есть конкретная проблема: значительная часть материалов до сих пор существует только на бумаге. Цифровизация архивов, которая в мирное время была бы вопросом удобства, вдруг стала критической для качества модели.

Название выбирали 136 000 человек

«Сияние» победило в голосовании в приложении «Дия» среди более чем 136 000 участников — с результатом 22 601 голос из десяти финалистов, отобранных из более чем 3000 предложений. Отрыв от второго места составил около трех тысяч голосов.

Открытое бета-тестирование для всех желающих запланировано на конец весны 2026 года. Долгосрочная цель амбициознее: к 2030 году Украина хочет войти в топ-3 мира по развитию ИИ.

Реальный вопрос, который выяснится уже во время беты: даст ли 10 ТБ архивных текстов — вместе с остальной частью датасета — достаточно качественное «понимание» контекста, чтобы «Сияние» превзошло общедоступные модели именно там, где те традиционно проваливаются: в нюансах советского бюрократического наследия, диалектах и документах, которые никогда не попадали в интернет.

Новости мира

Политика

Французская дипломатия в лучших традициях короля-Солнца: во время саммита G7 Макрон напомнил Трампу, что независимость США 250 лет назад спасла именно Франция — и сделал это величественно, в золотых покоях Версаля.

2 дня назад
Культура

Повреждено почти 4500 объектов — от сельских клубов до памятников ЮНЕСКО. Министр культуры Бережная впервые публично назвала косвенные убытки: они в шесть раз превышают прямые.

4 дня назад
Война

Организация верифицировала более 340 поврежденных объектов культурного наследия Украины, но в официальных формулировках не называет исполнителя атак. Министр культуры Береженая требует изменить эту практику — и за ней стоит целая дипломатическая логика.

4 дня назад