Тихий релиз без громкой презентации, без пафосных стримов, без теплящихся студийных софитов. Китайская лаборатория DeepSeek просто выложила веса своей новой модели на Hugging Face, открыла бесплатный доступ через веб-чат и приложение и пошла дальше работать. Так появилось четвёртое поколение языковых моделей семейства, и эффект оказался сопоставим с прошлогодней историей вокруг R1. Только теперь масштаб другой - речь идёт о флагмане в 1,6 триллиона параметров с контекстным окном на миллион токенов под лицензией MIT.

Два варианта модели закрывают разные ниши и по-разному перестраивают рынок

Линейка вышла парой. Старшая версия Pro несёт 1,6 триллиона общих параметров, из которых на каждый токен активируются 49 миллиардов. Это делает её самой крупной открытой моделью в индустрии. Архитектурно обе модели построены на смеси экспертов, то есть гигантский массив весов не задействуется целиком при каждом запросе, а активируется лишь специализированная часть. Подход экономит вычисления и позволяет масштабировать качество без линейного роста затрат на инференс.

Младшая Flash идёт в формате 284 миллиарда общих параметров и 13 миллиардов активных. На простых задачах она держится близко к старшей сестре, при этом отзывается быстрее и стоит ощутимо меньше. Для повседневных интеграций и агентских пайплайнов с большим объёмом простых вызовов это сочетание становится практически безальтернативным.

Контекстное окно в миллион токенов перестаёт быть маркетинговым украшением. Команда DeepSeek заявляет, что Pro тратит на новый токен лишь 27 процентов вычислений и хранит около 10 процентов KV-кеша по сравнению с предыдущей версией. Цифры на бумаге переводятся во вполне ощутимую разницу для тех, кто пытается обрабатывать книги, длинные репозитории или часовые транскрипты разговоров.

Бенчмарки показывают убедительный паритет с закрытыми лидерами и явное лидерство среди открытых решений

По собственным замерам DeepSeek, Pro в режиме максимального рассуждения занимает позицию лучшей открытой модели на сегодняшний день. На LiveCodeBench зафиксирован показатель 93,5 процента, и это самый высокий результат среди участников сравнения. Для контекста: у Gemini 3.1 Pro отмечено 91,7 процента, у Claude Opus 4.6 - 88,8 процента. На SWE-bench Verified, где задачи симулируют реальную работу с GitHub, модель достигла 80,6 процента, вплотную подойдя к 80,8 процента у Claude Opus 4.6. Математический тест HMMT дал 95,2 процента, а GPQA Diamond по сложным научным вопросам - 90,1 процента, рекорд для открытых решений.

Слабое место осталось одно. На SimpleQA модель набирает 57,9 процента, заметно уступая Gemini 3.1 Pro. Иначе говоря, в фактологических знаниях о мире разрыв с закрытыми флагманами пока сохраняется, и команда честно об этом сообщает. Зато в агентном программировании, где ИИ автономно пишет код, запускает его, тестирует и правит ошибки, преимущество DeepSeek выглядит уверенным. Поддержка интеграции с инструментами вроде Claude Code, OpenClaw и OpenCode заявлена как бесшовная.

Для разработчиков, привыкших ориентироваться на цифры, картина складывается необычная. Открытое решение впервые в нескольких ключевых дисциплинах опережает закрытые. Год назад такой расклад казался темой для горячих дискуссий, сегодня он стал фактом, который придётся учитывать при выборе стека.

Цена API меняет правила экономики языковых моделей и давит на конкурентов

Самый разрушительный аспект релиза прячется не в бенчмарках, а в прайс-листе. У Pro стоимость составляет 1,74 доллара за миллион входных токенов и 3,48 доллара за миллион выходных. У Flash цены опускаются до 0,14 и 0,28 доллара соответственно. Это не дно. Это новая планка для open-source сегмента, и она потянет за собой всех остальных.

Для тех, кто строит агентские системы с большим количеством простых запросов, экономия достигает пятикратной или даже десятикратной. На промышленных объёмах это означает миллионы долларов разницы в годовом бюджете. Конкуренты внутри Китая - Qwen, Kimi, MiniMax, GLM - окажутся вынуждены либо подтягиваться по цене, либо предлагать заметно лучшее качество. Западные провайдеры закрытых моделей оказываются в положении, где их премиальный ценник придётся защищать не столько технически, сколько маркетингом и удобством сервисов.

До 5 мая компания предложила разработчикам семидесятипятипроцентную скидку на Pro, разогнав интерес к платформе и заодно собрав волну реальных нагрузочных сценариев. Прагматичный ход, который одновременно работает как маркетинг и как стресс-тест.

Главный технологический сюжет связан с независимостью от чипов NVIDIA и переходом на Huawei Ascend

В тени бенчмарков и цен прячется ещё один сюжет, который для индустрии важнее громких цифр. Flash стала первой крупной моделью, написанной не только под CUDA. Команда специально подготовила архитектуру и ядра инференса так, чтобы выдавать продакшен-уровень throughput на чипах Huawei Ascend через формат MXFP4 и MegaMoE-kernel.

Тренировка пока ещё шла на железе Hopper-поколения, но инфраструктура инференса работает нативно на китайском кремнии. До этого вся индустрия делилась на стек, привязанный к американским чипам, и декларации о суверенности, которые на практике заканчивались на той же CUDA. Теперь появилась первая публично воспроизводимая связка, где обучение и развёртывание разнесены по разным аппаратным платформам.

Это меняет картину сразу по нескольким направлениям:

  1. Появляется реальная возможность строить ИИ-сервисы без прямой зависимости от поставок NVIDIA;
  2. Цены на инференс будут продолжать падать по мере поставок Ascend 950PR во второй половине 2026 года;
  3. Конкуренция между производителями ускорителей выходит на новый уровень и стимулирует снижение себестоимости;
  4. Открытая модель становится не только программным, но и аппаратным выбором, что усиливает её привлекательность для крупных корпораций;
  5. Появляется почва для региональных стеков, где обучение и инференс могут жить в разных юрисдикциях.

Каждый пункт по отдельности уже значителен. Все вместе они складываются в смену технологического ландшафта, последствия которой будут разворачиваться годами.

Доступность для конечных пользователей и интеграция в потребительские устройства

Параллельно с релизом для разработчиков пошла волна интеграций в массовые продукты. Honor первой среди производителей смартфонов на Android встроила V4 Pro в своего ассистента Yoyo. Обновление приходит на устройства с MagicOS 8.0 и более свежими версиями системы, ИИ вызывается долгим нажатием кнопки питания и переключается на DeepSeek через специальный баннер.

Для рядового пользователя китайская модель теперь доступна без оплаты прямо из приложения DeepSeek или из веб-чата. Веса лежат на Hugging Face под лицензией MIT, что означает возможность развернуть локально или встроить в коммерческий продукт без юридических ловушек. Энтузиасты уже собирают сборки для домашних серверов с двумя видеокартами, и это работает.

Инвестиционный фон вокруг компании усиливает интерес и одновременно поднимает планку ожиданий

В середине апреля появились сообщения о переговорах по привлечению как минимум 300 миллионов долларов при оценке в 10 миллиардов. Через несколько дней цифра подросла до возможных 20 миллиардов на фоне высокого интереса инвесторов. В качестве потенциальных участников раунда называют Tencent и Alibaba.

Такая динамика говорит о том, что рынок воспринимает DeepSeek уже не как стартап, удивляющий релизами, а как серьёзного игрока с долгосрочной стратегией. Открытость, ценовая агрессия и аппаратная независимость складываются в комбинацию, которую сложно скопировать наскоком. Конкурентам предстоит решать, делать ли свою альтернативу, инвестировать в Huawei-стек, держать эксклюзивные облачные сделки или придумывать иной ответ.

Что всё это значит для разработчиков и компаний прямо сейчас

Картина из 2026 года выглядит непривычно. Открытая китайская модель в нескольких задачах опережает закрытые западные флагманы, стоит на порядок дешевле, работает на альтернативном железе и распространяется под чистой MIT-лицензией. Любая команда, выбирающая стек для агентов, обработки длинных документов или массового кодинга, теперь обязана хотя бы оценить V4 как кандидата.

Полный переход с GPT или Claude на Pro для критичных продакшн-задач пока выглядит рискованным шагом. Edge-сценарии у Flash проседают, а в общей фактологии Pro уступает лидерам. Зато для R&D, экспериментов с архитектурой агентов и пайплайнов с большим объёмом простых вызовов экономия в пять-десять раз окупает любые компромиссы. Self-host инфраструктура наконец получила модель, которую можно развернуть без оговорок и без лицензионных ограничений.

DeepSeek V4 - это не просто очередное обновление списка релизов. Это сигнал индустрии о том, что закрытость перестаёт быть гарантией качества, а открытость перестаёт быть синонимом отставания. Дальше будет интересно наблюдать, как на этот сдвиг отреагируют те, кто ещё недавно задавал тон.