Sources pour l'entraînement
Des documents provenant de plus de 90 institutions publiques affluent — des registres judiciaires et des éditeurs de publications éducatives aux archives régionales et aux documents liés aux actions de la Russie pendant l'invasion à grande échelle. Ces corpus serviront de base pour l'entraînement d'un grand modèle de langage national, qui reposera sur l'architecture ouverte Gemma de Google.
Lieu d'entraînement et protection
L'entraînement se déroulera à l'étranger sur des processeurs graphiques sécurisés fournis par Google. Une fois terminé, le modèle devrait être déployé dans des centres de données ukrainiens. Parmi les partenaires technologiques du projet figure Kyivstar ; la date exacte de lancement n'est pas encore fixée.
L'équipe de développeurs se prépare à d'éventuelles cyberattaques. Le ministère du Numérique avertit que, immédiatement après le lancement public, le système pourrait devenir une cible, comme cela a été le cas pour d'autres services d'IA. Des mesures sont envisagées contre le « prompt injection » — des tentatives d'insérer des instructions malveillantes dans les requêtes des utilisateurs.
On a récemment annoncé que le grand modèle de langage ukrainien serait entraîné à l'aide de Gemma. Une équipe a déjà été constituée en Ukraine pour travailler au développement de la LLM nationale.