70 000 книг из архивов и ноль бюджетных гривень: как Украина строит собственный ИИ

«Сияние» — первая национальная большая языковая модель — обучается на архивных текстах, которых ранее не касался ни один ИИ-проект. Но самое необычное в этом государственном проекте — государство его не финансирует.

16
Поделиться:
Ілюстративне фото: Depositphotos

Укргосударственный архив передал для обучения ИИ-модели «Сияние» около 10 терабайтов данных — это эквивалент приблизительно 70 000 книг. По словам и.о. министра Минцифры Александра Борнякова, значительная часть этих материалов ранее никогда не использовалась в подобных проектах. Для понимания масштаба: вся англоязычная Википедия весит приблизительно 21 ГБ — архив передал почти в пять раз больше.

Государственный проект без государственных денег

Наиболее необычная деталь «Сияния» — схема финансирования. «Киевстар» полностью берет на себя расходы на разработку, после завершения которой модель будет передана государству. Как объясняет Борняков в колонке для AIN, логика проста: «в условиях войны каждая бюджетная гривня должна идти на оборону». В свою очередь оператор получит репутационный и коммерческий актив — и первенство в доступе к модели.

Техническую основу выбрали открытую: Gemma 3 от Google, которую команда Минцифры вместе с Киевстаром дотренирует на украинских данных. Эта же архитектура уже легла в основу первых украинских LLM — MamayLM и Lapa LLM, а также болгарской BgGPT. То есть «Сияние» — это не построение с нуля, а глубокая адаптация готовой открытой модели под язык и контекст.

50+ организаций и проблема бумаги

К инициативе уже присоединились более 50 организаций — бизнес, медиа, университеты, научные учреждения. Минцифры продолжает открытый набор партнеров: ищут новости, учебники, научную литературу, художественные тексты и архивные материалы.

«Наиболее важная часть работы — подготовка данных. Для эффективной украинской модели нужны не только тексты из интернета, но и исторические архивы и другие письменные источники».

Sud.ua, о подготовке датасета «Сияние»

Но здесь есть конкретная проблема: значительная часть материалов до сих пор существует только на бумаге. Цифровизация архивов, которая в мирное время была бы вопросом удобства, вдруг стала критической для качества модели.

Название выбирали 136 000 человек

«Сияние» победило в голосовании в приложении «Дия» среди более чем 136 000 участников — с результатом 22 601 голос из десяти финалистов, отобранных из более чем 3000 предложений. Отрыв от второго места составил около трех тысяч голосов.

Открытое бета-тестирование для всех желающих запланировано на конец весны 2026 года. Долгосрочная цель амбициознее: к 2030 году Украина хочет войти в топ-3 мира по развитию ИИ.

Реальный вопрос, который выяснится уже во время беты: даст ли 10 ТБ архивных текстов — вместе с остальной частью датасета — достаточно качественное «понимание» контекста, чтобы «Сияние» превзошло общедоступные модели именно там, где те традиционно проваливаются: в нюансах советского бюрократического наследия, диалектах и документах, которые никогда не попадали в интернет.

Новости мира

Технологии

Honor Choice MouseBuds Pro — это беспроводная мышка, в заднем отсеке которой живут ANC-наушники. Гаджет для тех, кто регулярно забывает наушники дома или возит три устройства там, где достаточно одного.

11 минут назад
Бизнес

После двухнедельного перемирия между США и Ираном через пролив прошло менее десятка судов. Тегеран установил лимит трафика, взимает сборы свыше миллиона долларов за рейс и требует оплату в биткоине или юанях — схема, которая сама по себе может нарушать санкции.

12 минут назад
Политика

Николаевская область зафиксировала 31 нападение на военных ТЦК с 2022 года — от избиений до ножевых ранений. На общенациональном фоне это не исключение, а часть тренда: ежегодно количество инцидентов по Украине более чем удваивается.

14 минут назад