Укрдержархів передав для навчання ШІ-моделі «Сяйво» близько 10 терабайтів даних — це еквівалент приблизно 70 000 книжок. За словами т.в.о. міністра Мінцифри Олександра Борнякова, значна частина цих матеріалів раніше ніколи не використовувалась у подібних проєктах. Для розуміння масштабу: вся англомовна Вікіпедія важить приблизно 21 ГБ — архів передав майже вп'ятеро більше.
Державний проєкт без державних грошей
Найнезвичніша деталь «Сяйва» — схема фінансування. «Київстар» повністю бере на себе витрати на розробку, після завершення якої модель буде передана державі. Як пояснює Борняков у колонці для AIN, логіка проста: «в умовах війни кожна бюджетна гривня має йти на оборону». Натомість оператор отримає репутаційний і комерційний актив — та першість у доступі до моделі.
Технічну основу обрали відкриту: Gemma 3 від Google, яку команда Мінцифри разом із Київстар дотренує на українських даних. Ця ж архітектура вже лягла в основу перших українських LLM — MamayLM та Lapa LLM, а також болгарської BgGPT. Тобто «Сяйво» — це не побудова з нуля, а глибока адаптація готової відкритої моделі під мову і контекст.
50+ організацій і проблема паперу
До ініціативи вже долучилися понад 50 організацій — бізнес, медіа, університети, наукові установи. Мінцифри продовжує відкритий набір партнерів: шукають новини, підручники, наукову літературу, художні тексти й архівні матеріали.
«Найважливіша частина роботи — підготовка даних. Для ефективної української моделі потрібні не лише тексти з інтернету, а й історичні архіви та інші письмові джерела».
Sud.ua, про підготовку датасету «Сяйва»
Але тут є конкретна проблема: значна частина матеріалів досі існує лише на папері. Цифровізація архівів, яка в мирний час була б питанням зручності, раптом стала критичною для якості моделі.
Назву обирали 136 000 людей
«Сяйво» перемогло в голосуванні в застосунку «Дія» серед понад 136 000 учасників — з результатом 22 601 голос із десяти фіналістів, відібраних із понад 3000 пропозицій. Відрив від другого місця склав близько трьох тисяч голосів.
Відкрите бета-тестування для всіх охочих заплановане на кінець весни 2026 року. Довгострокова мета амбітніша: до 2030 року Україна хоче увійти в топ-3 світу з розвитку ШІ.
Реальне питання, яке з'ясується вже під час бети: чи дасть 10 ТБ архівних текстів — разом із решткою датасету — достатньо якісне «розуміння» контексту, щоб «Сяйво» перевершило загальнодоступні моделі саме там, де ті традиційно провалюються: в нюансах радянської бюрократичної спадщини, діалектах і документах, які ніколи не потрапляли до інтернету.