Джерела для навчання
З більш ніж 90 державних установ надходять матеріали — від судових реєстрів і видавництв освіти до регіональних архівів та документів, пов'язаних із діями Росії під час повномасштабного вторгнення. Ці корпуси використають як основу для тренування національної великої мовної моделі, яка базуватиметься на відкритій архітектурі Gemma компанії Google.
Місце навчання й захист
Навчання відбуватиметься за кордоном на захищених графічних процесорах, що їх надає Google. Після завершення модель планують розгорнути в українських дата-центрах. Серед технологічних партнерів проєкту — Київстар; точна дата запуску поки не визначена.
Команда розробників готується до можливих кібератак. Мінцифри попереджає, що одразу після публічного запуску система може стати мішенню, як це траплялося з іншими ШІ-сервісами. Розглядають заходи проти 'prompt injection' — спроб вставити шкідливі інструкції в запити користувачів.
Нещодавно оголосили, що українську велику мовну модель навчатимуть із використанням Gemma. В Україні вже сформували команду, яка працюватиме над розробкою національної LLM.