24 квітня 2026 року DeepSeek опублікувала превʼю-версії двох моделей серії V4 — DeepSeek-V4-Pro та DeepSeek-V4-Flash. Обидві підтримують контекстне вікно до 1 мільйона токенів і розповсюджуються під ліцензією MIT, тобто будь-хто може завантажити, модифікувати й розгорнути їх комерційно.
Що всередині
V4-Pro — це 1,6 трильйона параметрів при 49 мільярдах активних. Flash — 284 мільярди загальних і 13 мільярдів активних. Обидві побудовані на архітектурі Mixture-of-Experts: модель не активує всі параметри одночасно, що дозволяє значно знизити вартість інференсу. За даними Hugging Face, у сценарії з контекстом у 1 млн токенів V4-Pro потребує лише 27% від обчислювальних витрат DeepSeek-V3.2 і 10% від розміру KV-кешу попередника.
Технічно це досягається завдяки гібридній увазі — комбінації Compressed Sparse Attention і Heavily Compressed Attention, яка суттєво підвищує ефективність на довгих контекстах. Для розробника чи аналітика це означає, що модель може обробити роман, кодову базу або корпус документів в одному запиті.
Бенчмарки: де обходить, де поступається
На практиці V4-Pro перевершує Claude Opus 4.6 на Terminal-Bench 2.0 (67,9% проти 65,4%) — бенчмарку реального автономного виконання команд із тригодинним тайм-аутом — і впевнено лідирує на LiveCodeBench (93,5% проти 88,8%). Водночас, за даними buildfastwithai.com, Claude утримує перевагу на SWE-bench Verified (80,8% проти 80,6%) і більш суттєву — на тестах фактологічної точності HLE та математичному HMMT 2026.
«V4 забезпечує продуктивність класу GPT-5 приблизно за 1/10 ціни»
NxCode, аналітичний огляд цінової політики DeepSeek API, квітень 2026
За словами незалежного дослідника Саймона Вілісона, який протестував обидві моделі через OpenRouter, V4-Pro є найбільшою відкритою моделлю на сьогодні — більшою за Kimi K2.6 (1,1T) і GLM-5.1 (754B) і вдвічі більшою за попередній DeepSeek V3.2 (685B).
Ціна, яка змінює рівняння
DeepSeek встановила такі тарифи API: Flash — $0,14 за мільйон токенів на вході та $0,28 на виході; Pro — $1,74 і $3,48 відповідно. Для порівняння: V4-Flash коштує у 12,4 разу дешевше, ніж Pro, при тому що на SWE-bench Verified відстає лише на 1,6 відсоткового пункту (79,0% проти 80,6%).
Для компанії, яка будує агентний воркфлоу — наприклад, автоматизований code review або аналіз тисяч документів щодня, — різниця у вартості токенів є не академічним питанням, а статтею бюджету. Аналітики NxCode підрахували, що R1 від DeepSeek обходиться у 27 разів дешевше за аналогічну reasoning-модель від OpenAI. V4 продовжує цю логіку.
Брукінгський інститут ще на початку 2025 року, після виходу DeepSeek-R1, зафіксував ширший структурний ефект: DeepSeek довела, що проривні моделі може будувати не лише Big Tech із необмеженим бюджетом, а команди, які системно оптимізують відкриті напрацювання. Компанія виросла з хедж-фонду, що використовував ШІ для торгових рішень, — і саме здатність до інженерної оптимізації, а не сирий капітал, стала її конкурентною перевагою.
Відкритість як стратегія
Ліцензія MIT означає, що будь-яка компанія може взяти V4-Pro (865 ГБ на Hugging Face) або Flash (160 ГБ) і розгорнути власний інфраструктурний стек — без роялті та залежності від API стороннього постачальника. Це прямий виклик закритим моделям OpenAI й Anthropic, монетизація яких побудована саме на API-доступі.
Разом із тим DeepSeek офіційно застерігає: моделі виходять у статусі preview, чат-шаблон у форматі Jinja відсутній, а старі точки доступу deepseek-chat і deepseek-reasoner будуть повністю вимкнені 24 липня 2026 року.
Якщо V4-Pro у повній версії підтвердить бенчмаркові результати preview — і якщо Unsloth або інші команди випустять квантизовані варіанти, придатні для локального розгортання на споживчому залізі, — питання полягає не в тому, чи зміниться ринок корпоративного ШІ, а в тому, скільки часу залишиться у закритих провайдерів, перш ніж цінова різниця у 10 разів стане для їхніх клієнтів неприйнятним аргументом на користь лояльності.