Le 24 avril 2026, DeepSeek a publié les versions d'aperçu de deux modèles de la série V4 — DeepSeek-V4-Pro et DeepSeek-V4-Flash. Les deux supportent une fenêtre contextuelle jusqu'à 1 million de jetons et sont distribués sous licence MIT, ce qui signifie que quiconque peut les télécharger, les modifier et les déployer commercialement.
Ce qu'il y a à l'intérieur
V4-Pro comprend 1,6 billion de paramètres avec 49 milliards actifs. Flash en compte 284 milliards au total et 13 milliards actifs. Les deux sont construits sur l'architecture Mixture-of-Experts : le modèle n'active pas tous les paramètres simultanément, ce qui permet de réduire considérablement le coût de l'inférence. Selon Hugging Face, dans un scénario avec un contexte d'1 million de jetons, V4-Pro ne nécessite que 27 % des frais de calcul de DeepSeek-V3.2 et 10 % de la taille du cache KV de son prédécesseur.
Techniquement, ceci est réalisé grâce à l'attention hybride — une combinaison de Compressed Sparse Attention et de Heavily Compressed Attention, qui améliore considérablement l'efficacité sur les longs contextes. Pour un développeur ou un analyste, cela signifie que le modèle peut traiter un roman, une base de code ou un corpus de documents dans une seule requête.
Benchmarks : où elle excelle, où elle cède du terrain
En pratique, V4-Pro surpasse Claude Opus 4.6 sur Terminal-Bench 2.0 (67,9 % contre 65,4 %) — un benchmark d'exécution autonome réelle de commandes avec un délai d'expiration de trois heures — et est largement en tête sur LiveCodeBench (93,5 % contre 88,8 %). En même temps, selon buildfastwithai.com, Claude conserve un avantage sur SWE-bench Verified (80,8 % contre 80,6 %) et un avantage plus important sur les tests de précision factuelle HLE et le test mathématique HMMT 2026.
« V4 offre une performance de classe GPT-5 à environ 1/10 du prix »
NxCode, examen analytique de la politique tarifaire de l'API DeepSeek, avril 2026
Selon le chercheur indépendant Simon Willison, qui a testé les deux modèles via OpenRouter, V4-Pro est le plus grand modèle ouvert à ce jour — plus grand que Kimi K2.6 (1,1T) et GLM-5.1 (754B) et deux fois plus grand que le DeepSeek V3.2 (685B) précédent.
Un prix qui change la donne
DeepSeek a établi les tarifs API suivants : Flash — 0,14 $ par million de jetons en entrée et 0,28 $ en sortie ; Pro — 1,74 $ et 3,48 $ respectivement. À titre de comparaison, V4-Flash coûte 12,4 fois moins cher que Pro, tout en étant en retrait de seulement 1,6 point de pourcentage sur SWE-bench Verified (79,0 % contre 80,6 %).
Pour une entreprise qui construit un workflow d'agents — par exemple, un examen de code automatisé ou l'analyse de milliers de documents par jour — la différence de coût des jetons ne relève pas d'une question académique, mais d'une ligne budgétaire. Les analystes de NxCode ont calculé que R1 de DeepSeek coûte 27 fois moins cher qu'un modèle de reasoning comparable d'OpenAI. V4 poursuit cette logique.
L'Institut Brookings, dès début 2025, après la sortie de DeepSeek-R1, a constaté un effet structurel plus large : DeepSeek a prouvé que des modèles révolutionnaires peuvent être construits non seulement par les géants technologiques dotés de budgets illimités, mais par des équipes qui optimisent systématiquement les travaux ouverts. L'entreprise est née d'un fonds spéculatif utilisant l'IA pour les décisions commerciales — et c'est précisément la capacité à l'optimisation technique, plutôt que le capital brut, qui en est devenu l'avantage concurrentiel.
L'ouverture comme stratégie
La licence MIT signifie que n'importe quelle entreprise peut prendre V4-Pro (865 Go sur Hugging Face) ou Flash (160 Go) et déployer sa propre pile d'infrastructure — sans redevances et sans dépendre d'un accès API d'un fournisseur tiers. C'est un défi direct aux modèles fermés d'OpenAI et d'Anthropic, dont la monétisation est basée précisément sur l'accès API.
Parallèlement, DeepSeek avertit officiellement : les modèles sont publiés en statut d'aperçu, le modèle de chat au format Jinja est absent, et les anciens points de terminaison deepseek-chat et deepseek-reasoner seront complètement désactivés le 24 juillet 2026.
Si V4-Pro dans sa version complète confirme les résultats des benchmarks de l'aperçu — et si Unsloth ou d'autres équipes sortent des variantes quantifiées adaptées au déploiement local sur du matériel grand public — la question n'est pas de savoir si le marché de l'IA d'entreprise changera, mais plutôt combien de temps reste aux fournisseurs fermés avant qu'une différence de prix de 10 fois ne devienne un argument inacceptable pour la loyauté de leurs clients.