Le Ministère de la Transformation numérique, conjointement avec Kyivstar, a désigné Gemma 3 de Google comme modèle de référence pour l'entraînement du grand modèle de langage national.
Capacités techniques de Gemma 3
Gemma 3 prend en charge environ 140 langues, dont l'ukrainien. Le modèle est conçu pour fonctionner avec de longs contextes — jusqu'à 128 000 jetons — et dispose de capacités multimodales permettant de traiter non seulement du texte, mais aussi des images.
Adaptation à l'ukrainien
Il est prévu d'adapter le modèle aux spécificités de l'ukrainien : moderniser le tokeniseur pour une meilleure reconnaissance des mots, le réentraîner sur des corpus ukrainophones uniques et créer des jeux de test propres pour évaluer la qualité.
Gemma a déjà été utilisée dans des projets ukrainiens, notamment Lapa LLM et MamayLM, ainsi que dans le développement du modèle bulgare BgGPT.
De plus, le chatbot Diia.AI devrait être migré de Gemini vers le modèle de langage national. Une équipe a également été constituée en Ukraine pour travailler à la création de leur propre grand modèle de langage.