Das Ukrainische Staatsarchiv hat etwa 10 Terabyte Daten zum Training des KI-Modells „Siyvo" übermittelt – das entspricht ungefähr 70 000 Büchern. Laut dem kommissarischen Minister für Digitalisierung Oleksandr Bornyakov wurde ein großer Teil dieser Materialien bisher nie in ähnlichen Projekten verwendet. Zum Vergleich: Die gesamte englischsprachige Wikipedia wiegt etwa 21 GB – das Archiv hat fast das Fünffache übertragen.
Staatliches Projekt ohne staatliche Gelder
Das Ungewöhnlichste an „Siyvo" ist das Finanzierungsschema. „Kyivstar" übernimmt vollständig die Entwicklungskosten, wonach das Modell an den Staat übergeben wird. Wie Bornyakov in einer Kolumne für AIN erläutert, ist die Logik einfach: „In Kriegszeiten sollte jede Budgethrywnja für die Verteidigung verwendet werden". Der Betreiber erhält dagegen einen reputationsbezogenen und kommerziellen Vermögenswert – sowie Vorrang beim Zugang zum Modell.
Als technische Grundlage wurde eine offene Lösung gewählt: Gemma 3 von Google, die das Team des Ministeriums für Digitalisierung zusammen mit Kyivstar auf ukrainischen Daten nachtrainieren wird. Diese Architektur bildete bereits die Grundlage für die ersten ukrainischen LLM – MamayLM und Lapa LLM – sowie das bulgarische BgGPT. „Siyvo" ist also keine Neuentwicklung von Grund auf, sondern eine tiefe Anpassung eines vorhandenen offenen Modells an die Sprache und den Kontext.
Über 50 Organisationen und das Papierproblem
Über 50 Organisationen sind bereits an der Initiative beteiligt – Unternehmen, Medien, Universitäten und Forschungseinrichtungen. Das Ministerium für Digitalisierung führt weiterhin eine offene Partnersuche durch: Gesucht werden Nachrichten, Lehrbücher, wissenschaftliche Literatur, literarische Texte und Archivmaterialien.
„Der wichtigste Teil der Arbeit ist die Datenvorbereitung. Für ein effektives ukrainisches Modell werden nicht nur Internettexte benötigt, sondern auch historische Archive und andere schriftliche Quellen".
Sud.ua über die Vorbereitung des Datensatzes „Siyvo"
Es gibt jedoch ein konkretes Problem: Ein großer Teil der Materialien existiert immer noch nur auf Papier. Die Digitalisierung von Archiven, die in Friedenszeiten eine Frage der Bequemlichkeit gewesen wäre, ist plötzlich entscheidend für die Qualität des Modells geworden.
Den Namen wählten 136 000 Menschen
„Siyvo" gewann die Abstimmung in der App „Diia" mit mehr als 136 000 Teilnehmern – mit 22 601 Stimmen von zehn Finalisten, die aus über 3000 Vorschlägen ausgewählt wurden. Der Vorsprung gegenüber dem zweiten Platz betrug etwa dreitausend Stimmen.
Die öffentliche Beta-Phase für alle Interessierten ist für Ende Frühling 2026 geplant. Das langfristige Ziel ist ehrgeiziger: Bis 2030 will die Ukraine in die Top 3 der Welt bei der KI-Entwicklung aufsteigen.
Die eigentliche Frage, die sich während der Beta-Phase klären wird, ist: Werden 10 TB an Archivtexten – zusammen mit dem Rest des Datensatzes – ein ausreichend gutes „Verständnis" des Kontexts ermöglichen, damit „Siyvo" allgemein verfügbare Modelle genau dort übertrifft, wo diese traditionell versagen: bei den Nuancen des sowjetischen bürokratischen Erbes, bei Dialekten und bei Dokumenten, die nie ins Internet gelangt sind.