70 000 livres d'archives et zéro hryvnia budgétaire : comment l'Ukraine construit son propre IA

« Siayvo » — le premier grand modèle linguistique national — s'entraîne sur des textes d'archives qu'aucun projet d'IA n'a jamais traités auparavant. Mais le plus étrange dans ce projet d'État — l'État ne le finance pas.

17
Partager :
Ілюстративне фото: Depositphotos

L'Archivesdétat d'Ukraine a transmis environ 10 téraoctets de données pour l'entraînement du modèle d'IA « Siyavo » — l'équivalent d'environ 70 000 livres. Selon Oleksandr Bornyakov, ministre par intérim du ministère de la Transformation numérique, une grande partie de ces matériaux n'avait jamais été utilisée auparavant dans des projets similaires. Pour comprendre l'ampleur : l'intégralité de Wikipédia en anglais pèse environ 21 Go — l'archive a transmis près de cinq fois plus.

Un projet d'État sans fonds d'État

Le détail le plus inhabituel de « Siyavo » est le schéma de financement. Kyivstar assume entièrement les frais de développement, après quoi le modèle sera transféré à l'État. Comme l'explique Bornyakov dans une chronique pour AIN, la logique est simple : « en temps de guerre, chaque hryvnia budgétaire doit aller à la défense ». En retour, l'opérateur recevra un atout réputationnel et commercial — ainsi qu'un accès prioritaire au modèle.

La base technique choisie est ouverte : Gemma 3 de Google, que l'équipe du ministère de la Transformation numérique, en collaboration avec Kyivstar, perfectionnera sur des données ukrainiennes. Cette même architecture a déjà servi de base aux premiers modèles de langage ukrainiens — MamayLM et Lapa LLM, ainsi qu'au BgGPT bulgare. En d'autres termes, « Siyavo » n'est pas une construction à partir de zéro, mais une adaptation profonde d'un modèle ouvert existant à la langue et au contexte.

Plus de 50 organisations et le problème du papier

Plus de 50 organisations ont déjà rejoint l'initiative — entreprises, médias, universités, instituts de recherche. Le ministère de la Transformation numérique poursuit un recrutement ouvert de partenaires : il recherche des actualités, des manuels, de la littérature scientifique, des textes littéraires et des matériaux d'archives.

« La partie la plus importante du travail est la préparation des données. Pour un modèle ukrainien efficace, il ne suffit pas de textes provenant d'Internet, mais aussi d'archives historiques et d'autres sources écrites ».

Sud.ua, sur la préparation de l'ensemble de données « Siyavo »

Mais il y a un problème concret : une grande partie des matériaux existe toujours uniquement sur papier. La numérisation des archives, qui en temps de paix aurait été une question de commodité, est soudainement devenue critique pour la qualité du modèle.

Le nom a été choisi par 136 000 personnes

« Siyavo » a remporté le vote dans l'application « Diia » parmi plus de 136 000 participants — avec un résultat de 22 601 votes sur dix finalistes, sélectionnés parmi plus de 3 000 propositions. L'écart avec la deuxième place était d'environ trois mille votes.

Les tests bêta ouverts pour tous les intéressés sont prévus pour fin printemps 2026. L'objectif à long terme est plus ambitieux : d'ici 2030, l'Ukraine souhaite figurer dans le top 3 mondial pour le développement de l'IA.

La véritable question, qui sera clarifiée lors de la phase bêta, est de savoir si 10 To de textes d'archives — conjointement avec le reste de l'ensemble de données — fourniront une « compréhension » suffisamment de qualité du contexte pour que « Siyavo » surpasse les modèles d'accès public précisément là où ceux-ci échouent traditionnellement : dans les nuances de l'héritage bureaucratique soviétique, les dialectes et les documents qui n'ont jamais été mis sur Internet.

Actualités mondiales

Affaires

Après une trêve de deux semaines entre les États-Unis et l'Iran, moins d'une dizaine de navires ont traversé le détroit. Téhéran a imposé une limite au trafic, percevoir des droits dépassant le million de dollars par traversée et exige le paiement en bitcoins ou en yuans — un système qui pourrait en lui-même violer les sanctions.

il y a 12 minutes