DeepSeek V4 и Kimi K2.6 переписали правила игры в open-weight моделях, но честный отчёт о галлюцинациях оказался важнее громких чисел

Донат на развитие проекта

Если вам нравится этот ресурс, вы можете поддержать автора с помощью криптовалюты USDT. Это цифровой доллар, где 1 USDT равен 1 доллару США.

Как отправить донат:

Нажмите кнопку «Копировать» внизу для копирования адреса.
Откройте ваше криптоприложение или биржу (например, Telegram-кошелёк, Trust Wallet, Bybit).
Выберите перевод USDT и укажите сеть TRC-20 (Tron) для быстрой отправки с минимальной комиссией.

TDRB9q8276q2hLzwuYSQ2CdaXe1jboN45U

Открытые ИИ модели снова оказались в центре внимания после того, как китайская лаборатория DeepSeek выпустила долгожданное семейство V4, а её прямой конкурент Moonshot AI одновременно подтвердил лидерство своей Kimi K2.6. История получилась парадоксальной. С одной стороны, технические показатели приближаются к закрытым флагманам уровня GPT-5.5 и Claude Opus 4.7 настолько близко, как этого никогда раньше не случалось в открытом сегменте. С другой - под капотом скрывается проблема, которую раньше предпочитали замалчивать. Речь о галлюцинациях. И именно публикация развёрнутого технического отчёта на 58 страниц, где разработчики не побоялись показать неудобную статистику, стала самым неожиданным сюжетом всей этой истории.

Архитектурный скачок DeepSeek V4 и почему 1,6 триллиона параметров не означают автоматической победы

Релиз V4 произошёл 24 апреля 2026 года, спустя 484 дня после предыдущего поколения V3. Лаборатория представила сразу две версии. Старшая V4-Pro несёт 1,6 триллиона параметров с 49 миллиардами активных при инференсе, младшая V4-Flash работает на 284 миллиардах общих параметров и 13 миллиардах активных. Обе используют архитектуру Mixture-of-Experts и поддерживают контекстное окно в один миллион токенов по умолчанию.

Под лицензией MIT доступны полные веса. Pro весит 865 гигабайт, Flash - 160. Это делает V4-Pro крупнейшей открытой моделью в мире, опережающей по размеру Kimi K2.6 (1,1 триллиона) и GLM-5.1 от Zhipu AI (754 миллиарда). Но размер тут лишь часть истории. Ключевая инновация спрятана в новой системе внимания. Гибридная схема Compressed Sparse Attention в связке с Heavily Compressed Attention позволила сократить кэш ключей и значений на 90% при работе с контекстом в миллион токенов. Аналитики SemiAnalysis назвали это решение более влиятельным, чем мартовская работа Google по TurboQuant.

На бенчмарке Artificial Analysis Intelligence Index V4-Pro набрала 52 балла. Скачок относительно V3.2 составил 10 пунктов. Однако Kimi K2.6 обошла её на два балла, набрав 54. Закрытые западные флагманы остались впереди. GPT-5.5 показал 60 баллов, Opus 4.7 и Gemini 3.1 Pro - по 57. Сам DeepSeek в своих материалах честно признал отставание от передовых систем примерно на три-шесть месяцев.

Открытый отчёт о галлюцинациях стал главной сенсацией релиза

Технический документ, сопровождающий V4, оказался чем-то большим, чем обычная маркетинговая брошюра. Несколько независимых исследователей назвали его одной из самых проработанных публикаций года. Здесь собраны не только архитектурные решения, но и неприятные цифры, которые лаборатории обычно прячут поглубже.

Главное откровение касается метрики AA-Omniscience от Artificial Analysis. V4-Pro в режиме Max показала результат -10 баллов. Это улучшение на 11 пунктов относительно V3.2, которая выдавала -21. Прогресс налицо, но настоящий шок ждал в детализации. Уровень галлюцинаций V4-Pro составляет 94%, а V4-Flash - 96%. Расшифровка проста и неутешительна. Когда модель не знает ответа, она почти всегда отвечает всё равно, выдумывая факты вместо того чтобы признать пробел в знаниях.

На этом фоне Kimi K2.6 выглядит совершенно иначе. Её уровень галлюцинаций равен 39%, что близко к показателям лучших закрытых систем. Claude Opus 4.7 имеет 36%, MiniMax-M2.7 - 34%. Предыдущая версия Kimi K2.5 фабриковала ответы в 65% случаев, так что прогресс Moonshot AI впечатляет. Способность модели сказать "я не знаю" вместо красивой выдумки - вот настоящая зрелость, которую годами недооценивали разработчики.

Цена интеллекта рухнула, но дешевизна имеет свою стоимость

Финансовая сторона выпуска заставляет задуматься о структуре всего рынка. V4-Pro обходится в 1,74 доллара за миллион входных токенов и 3,48 доллара за миллион выходных. Кэшированный вход стоит всего 14,5 цента. Для сравнения, GPT-5.5 запрашивает 5 долларов за вход и 30 за выход, Claude Opus 4.7 - 5 и 25 соответственно. Разница достигает порядка величины.

V4-Flash оказался самой дешёвой малой моделью на рынке, обогнав даже GPT-5.4 Nano. Полный прогон бенчмарка Artificial Analysis Intelligence Index на V4-Pro обходится в 1071 доллар. Звучит дорого, пока не сравнить с 4811 долларами для Claude Opus 4.7. При этом конкуренты в открытом сегменте остаются ещё экономичнее. Тот же тест на Kimi K2.6 стоит 948 долларов, на GLM-5.1 - 544 доллара, а на gpt-oss-120B всего 67. Парадокс объясняется высоким расходом токенов у V4. Pro генерирует около 190 миллионов токенов на полный набор тестов, Flash - 240 миллионов.

Возникает вопрос приоритетов для разработчиков и компаний. Что важнее, низкая цена за токен или общая стоимость задачи? Ответ зависит от характера нагрузки. Для простых ответов V4 оптимальна. Для длинных рассуждений с цепочками вывода математика смещается в пользу более компактных моделей.

Реальные сценарии применения раскрывают сильные и слабые стороны новых моделей

Внутренние данные DeepSeek показали интересный сюжет. V4-Pro стала основной моделью для агентного программирования среди сотрудников лаборатории. Опыт использования превзошёл Claude Sonnet 4.5, а качество поставки кода приблизилось к Opus 4.6 в нерассуждающем режиме. На бенчмарке GDPval-AA, имитирующем реальные рабочие задачи, V4-Pro набрала 1554 балла. Это лидерство среди открытых моделей. Kimi K2.6 показала 1484, GLM-5.1 - 1535, MiniMax-M2.7 - 1514.

В кодовых соревнованиях картина впечатляет. На LiveCodeBench V4-Pro взяла 93,5 балла, а рейтинг Codeforces достиг 3206. По математике результаты вплотную подбираются к фронтиру. IMOAnswerBench - 89,8, HMMT 2026 - 95,2. Платформа Vals AI назвала V4 безоговорочным лидером в своём Vibe Code Benchmark, отметив десятикратный рост относительно V3.2, которая на этом тесте набирала всего пять баллов.

Однако независимый бенчмарк Akita on Rails дал более сдержанную оценку. По итогам пересмотренного тестирования двадцати трёх моделей в Tier A попали только Opus 4.7 и GPT-5.4 xHigh с результатом 97 из 100, GPT-5.5 расположился третьим с 96 баллами. Среди китайских моделей этого уровня достигла только Kimi K2.6 с 87 очками. V4-Flash получил 78 баллов и попал в Tier B, а V4-Pro выпал из основного рейтинга из-за технических проблем с инструментальной обвязкой.

Реакция рынка оказалась куда сдержаннее, чем во времена R1, и причины этого крайне показательны

Год назад выпуск DeepSeek R1 потряс мировые рынки. Капитализация Nvidia обвалилась на 17% за один день, американские фондовые индексы потеряли сотни миллиардов долларов. На этот раз всё прошло иначе. После анонса V4 акции Nvidia выросли на 4,32%. Китайские производители чипов получили скромный рост на новости об интеграции с оборудованием Huawei.

Что изменилось за этот год? Рынок повзрослел. Инвесторы поняли, что открытые модели не уничтожают спрос на вычисления, а наоборот, разгоняют его. Кроме того, V4 уже не воспринимается как сюрприз. Несколько китайских лабораторий выпустили сильные модели за прошедший год, и ажиотаж вокруг каждого нового релиза постепенно снижается. Старший научный сотрудник Совета по международным отношениям Крис МакГуайр заметил, что выпуск мало что меняет в общей картине лидерства США в области ИИ.

Любопытен и технический нюанс. Хуавей объявил полную поддержку V4 на своих чипах Ascend для инференса. Но в материалах DeepSeek нет ни слова о том, что обучение тоже проходило на китайском железе. Старший научный сотрудник Брукингского института Кайл Чан обратил на это внимание. Похоже, экспортные ограничения США продолжают давить на цикл разработки, даже если развёртывание готовых моделей становится всё более независимым от западных поставщиков.

Что выпуск V4 и Kimi K2.6 означает для отрасли в более широком смысле

Главный сдвиг произошёл не в количественных показателях, а в подходе к коммуникации. Раньше лаборатории старались скрывать слабые стороны своих систем. Теперь же открытая публикация уровня галлюцинаций в 94% рядом с триумфальными цифрами по математике становится новой нормой. Это шаг к зрелости отрасли.

Для практического применения вырисовываются простые рекомендации:

Для работы с кодом и задач агентного программирования при ограниченном бюджете V4-Pro даёт оптимальное соотношение качества и цены;
Для задач, где критична фактическая точность и недопустима выдумка, Kimi K2.6 предпочтительнее благодаря низкому уровню галлюцинаций;
Для локального развёртывания на одной мощной машине V4-Flash остаётся самым доступным вариантом, способным запуститься на одном узле H200;
Для длинноконтекстных задач до миллиона токенов оба семейства предлагают комбинации, ранее доступные лишь в закрытых API.

Ещё один важный вывод касается этики. Высокая частота галлюцинаций при росте общего интеллекта создаёт опасную ситуацию. Модель звучит уверенно, оперирует точными цифрами, выдаёт стройные рассуждения. И при этом в 94 случаях из 100 готова сочинить ответ вместо того чтобы признать пробел. Для бытового чата это терпимо. Для медицинских, юридических или финансовых консультаций это бомба замедленного действия.

Открытость технических отчётов превращается в форму общественного контроля. Когда уровень галлюцинаций публикуется наряду с бенчмарками производительности, разработчики приложений могут осознанно выбирать инструмент под свою задачу. Когда такие данные скрываются, пользователь рискует попасть в ловушку красивой выдумки, выдаваемой за факт.

Финальный сюжет ещё предстоит дописать. Полный релиз V4 без приставки preview ожидается в ближайшие недели, а Moonshot AI готовит обновления Kimi. Открытый сегмент догоняет закрытый быстрее, чем предсказывали даже оптимисты в начале года. Но настоящая конкуренция теперь идёт не за лидерство в одном бенчмарке, а за честность перед пользователем. И тут лидеры пока ещё не определились окончательно.