Gemma 3 від Google стане основою української LLM

Міністерство цифрової трансформації та Київстар обрали відкриту модель Gemma 3 як базу для створення української великої мовної моделі. Її адаптуватимуть під українську, донавчатимуть на національних даних і тестуватимуть власними бенчмарками.

1115
Поділиться:

Міністерство цифрової трансформації разом із Київстаром визначили Gemma 3 від Google як опорну модель для навчання національної великої мовної моделі.

Технічні можливості Gemma 3

Gemma 3 підтримує близько 140 мов, серед яких є українська. Модель розрахована на роботу з довгими контекстами — до 128 000 токенів — і має мультимодальні функції, що дозволяють опрацьовувати не лише текст, а й зображення.

Налаштування під українську

Планують адаптувати модель до специфіки української: модернізувати токенайзер для кращого розпізнавання слів, донавчити на унікальних україномовних корпусах і створити власні тестові набори для оцінки якості.

Раніше Gemma застосовували в українських проєктах, зокрема Lapa LLM та MamayLM, а також у розробці болгарської моделі BgGPT.

Окрім того, чат-бот Дія.AI планують перевести з Gemini на національну мовну модель. В Україні також сформували команду, яка працюватиме над створенням власної великої мовної моделі.

Новини світу

Політика

Французька дипломатія в кращих традиціях короля-Сонце: під час саміту G7 Макрон нагадав Трампу, що незалежність США 250 років тому врятувала саме Франція — і зробив це велично, у золоті Версаля.

2 дні тому
Культура

Пошкоджено майже 4500 об'єктів — від сільських клубів до пам'яток ЮНЕСКО. Міністерка культури Бережна вперше публічно назвала непрямі збитки: вони у шість разів перевищують прямі.

4 дні тому
Війна

Організація верифікувала понад 340 пошкоджених об'єктів культурної спадщини України, але в офіційних формулюваннях не називає виконавця атак. Міністерка культури Бережна вимагає змінити цю практику — і за нею стоїть ціла дипломатична логіка.

4 дні тому