Февральский релиз от компании Zhipu AI переписал правила игры на рынке больших языковых моделей. GLM-5 появился внезапно, без долгих анонсов и маркетинговых кампаний. 11 февраля 2026 года разработчики получили доступ к системе с 744 миллиардами параметров под лицензией MIT. Бесплатно. Без ограничений на коммерческое использование.

Такие вещи случаются нечасто. Обычно модели подобного масштаба остаются закрытыми продуктами крупных корпораций, доступными только через платные API. Здесь же полные веса можно скачать с Hugging Face и запустить на собственном оборудовании. Первый вопрос, который возникает у любого технического специалиста, насколько эта открытость реальна и что стоит за такой щедростью?

Архитектура, которая меняет экономику вычислений

Mixture of Experts звучит как академический термин, но суть проста. Вместо того чтобы активировать все 744 миллиарда параметров для обработки каждого запроса, система включает только 40 миллиардов. Представьте библиотеку, где вместо того чтобы просматривать все полки, умный помощник ведет вас прямо к нужным книгам. Из 256 специализированных "экспертов" модель выбирает восемь наиболее подходящих для конкретной задачи.

Экономия очевидна. По затратам на вычисления GLM-5 работает как модель в 40 миллиардов параметров, но обладает знаниями системы в 700+ миллиардов. Это не просто техническая хитрость, а фундаментальный сдвиг в подходе к масштабированию. Компания обучила модель на 28,5 триллионах токенов, что на 5,5 триллионов больше предыдущей версии. Каждый токен добавлял контекст, расширял понимание паттернов.

Интересная деталь: всё обучение прошло на китайских процессорах Huawei Ascend без использования американского оборудования NVIDIA. Это политическое заявление, замаскированное под технический выбор. Санкции на поставку передовых чипов подтолкнули китайскую индустрию к созданию собственной экосистемы, и GLM-5 стал её флагманом.

Динамическое внимание как решение старой проблемы

Контекстное окно в 200 тысяч токенов впечатляет на бумаге, но бесполезно без эффективного механизма обработки. Классические трансформеры упираются в квадратичный рост вычислений при увеличении длины последовательности. Удвоение контекста приводит к учетверению требований к памяти и процессорному времени.

Dynamically Sparse Attention решает эту головоломку элегантно. Модель анализирует входящий текст и определяет, какие токены действительно важны для понимания контекста. Остальные обрабатываются приблизительно или пропускаются. Точность при этом почти не страдает, а затраты снижаются драматически.

Разработчики, работающие с крупными кодовыми базами, оценят возможности по достоинству. Загрузить весь проект на 50 тысяч строк, попросить найти баг в конкретном модуле и получить осмысленный ответ с учетом архитектуры всей системы. Юристы могут анализировать сотни страниц договоров за один сеанс. Аналитики обрабатывают годовые отчеты компаний без необходимости разбивать их на фрагменты.

Пять направлений специализации

Разработчики Zhipu AI не пытались создать универсальную модель для всего. Вместо этого выбрали пять ключевых доменов и довели их до совершенства.

Кодирование перестало быть просто генерацией функций по описанию. GLM-5 понимает системную архитектуру, работает с репозиториями как единым целым, предлагает рефакторинг с учетом зависимостей между модулями. На бенчмарке SWE-bench Verified модель показывает 77,8%, что превосходит предыдущее поколение на 7 процентных пунктов и приближается к закрытым системам уровня Claude Opus 4.5 с её 80,9%.

Агентные сценарии требуют не просто ответа на запрос, а последовательности действий с использованием внешних инструментов. Модель может спланировать задачу, разбить её на подзадачи, выбрать нужные API, обработать результаты и скорректировать план на лету. На тесте Vending Bench 2, симулирующем годовую работу виртуального бизнеса, GLM-5 заработала 4 432 доллара виртуальной прибыли. Для сравнения, предыдущая версия GLM-4.7 остановилась на 2 377 долларах.

Длинный контекст становится практически полезным благодаря DSA. Многодокументный анализ, извлечение информации из десятков PDF-файлов, поиск противоречий в технической документации. Задачи, которые раньше требовали RAG-систем и сложной оркестровки, теперь решаются прямой загрузкой всех материалов в контекст.

Рассуждения и творчество получили меньше внимания в официальных материалах, но тесты показывают солидные результаты. GPQA-Diamond на 86%, что говорит о способности обрабатывать сложные научные вопросы. AIME 2026 на 92,7% демонстрирует математические навыки уровня олимпиад.

Что говорят цифры бенчмарков

Тесты производительности рисуют интересную картину. GLM-5 доминирует среди открытых моделей и теснит проприетарные решения в специфических областях. На BrowseComp, измеряющем способность работать с веб-контентом и извлекать информацию из браузера, результат 75,9% превосходит даже Claude Opus 4.5 с её 67,8%.

MCP-Atlas проверяет навыки работы с инструментами и протоколами. Здесь GLM-5 набирает 67,8%, обгоняя Claude Opus 4.5 (65,2%) и GPT-5.2 (66,6%). Terminal-Bench 2.0 фокусируется на командной строке и DevOps-сценариях. Результат 56,2-60,7% ставит модель на уровень закрытых флагманов.

Есть области, где проприетарные системы сохраняют преимущество. SWE-bench Verified всё ещё за Claude Opus 4.5, хотя разрыв минимален. Humanity's Last Exam с инструментами показывает 50,4% против 43,4% у Claude, но без инструментов ситуация обратная.

Интересный момент: модель демонстрирует рекордно низкий уровень галлюцинаций. Система "slime", новая инфраструктура асинхронного обучения с подкреплением, научила модель отказываться от ответа при недостатке информации вместо выдумывания правдоподобных, но ложных фактов.

Практическая доступность без маркетинговых обещаний

Скачать полные веса можно прямо сейчас. Репозиторий zai-org/GLM-5 на Hugging Face содержит версии в форматах BF16 и FP8. Полный вес около 1,5 терабайта, квантованная версия занимает меньше места и работает быстрее при минимальной потере качества.

Для локального развертывания поддерживаются фреймворки vLLM и SGLang. Команда vllm serve zai-org/GLM-5 --tensor-parallel-size 8 запускает сервер на восьми GPU. Минимальная конфигурация требует серьёзного оборудования, но квантование делает модель доступной для более скромных установок.

Облачные провайдеры также подключились. OpenRouter добавил GLM-5 в каталог (ранее модель тестировалась там под кодовым именем Pony Alpha). Z.ai предлагает бесплатный доступ через веб-интерфейс с ограничениями на частоту запросов. API доступно по цене 1,4 доллара за миллион токенов, что конкурентно для модели такого масштаба.

Поддержка не-NVIDIA оборудования открывает новые возможности. Huawei Ascend, Moore Threads, Cambricon становятся реальными альтернативами для компаний, столкнувшихся с ограничениями на поставки. Оптимизированные ядра и квантование позволяют запускать модель на китайском железе с приемлемой производительностью.

Z Code и будущее агентных IDE

Отдельного внимания заслуживает Z Code, среда разработки, построенная вокруг GLM-5. Это не просто редактор с автодополнением. Система позволяет нескольким агентам работать параллельно над одной задачей. Один анализирует структуру репозитория, второй пишет код, третий генерирует тесты, четвёртый проверяет соответствие стандартам.

Оркестрация агентов происходит автоматически. Разработчик формулирует задачу высокого уровня: "Добавить аутентификацию через OAuth в существующее API". Система разбивает её на подзадачи, распределяет между агентами, координирует их работу, собирает результаты в единое решение.

Интеграция с внешними инструментами расширяет возможности. Подключение к базам данных для анализа схемы, взаимодействие с системами контроля версий для понимания истории изменений, связь с CI/CD пайплайнами для автоматического тестирования. Граница между IDE и полноценной платформой разработки размывается.

Рыночная реакция и стратегические последствия

Акции Zhipu AI взлетели на 34% после анонса. Трафик на платформу Z.ai вырос в пять раз за первые сутки, что вынудило команду ввести временные ограничения на регистрацию новых пользователей. Спрос пришёл со всего мира: США, Китай, Индия, Япония, Бразилия лидируют по числу загрузок.

Релиз совпал с предновогодним всплеском активности китайских AI-компаний. ByteDance выпустила Seedance 2.0, Moonshot AI обновила Kimi до версии K2.5. Конкуренция обостряется, каждая компания пытается захватить долю рынка до того, как он окончательно консолидируется.

Геополитический аспект невозможно игнорировать. Полностью китайский стек технологий от чипов до модели демонстрирует способность индустрии развиваться независимо от западных поставщиков. Санкции, призванные затормозить развитие, парадоксальным образом ускорили создание локальной экосистемы.

Сообщество разработчиков отреагировало неоднозначно. Восторг от открытости весов соседствует с опасениями по поводу требований к оборудованию. Энтузиасты запускают модель на домашних серверах с несколькими GPU, делятся результатами квантования и оптимизации. Скептики указывают на необходимость мощных кластеров для полноценного использования возможностей.

Сравнение с конкурентами раскрывает нюансы

GLM-4.7, предыдущая версия, уступает по всем фронтам. Intelligence Index вырос с 42 до 50 баллов, что отражает качественный скачок. Особенно заметен прогресс в агентных сценариях, где новая версия превосходит старую на 15-20 процентных пунктов.

DeepSeek-V3.2 и Kimi K2.5 проигрывают в большинстве бенчмарков. GLM-5 обходит их на кодировании, агентных задачах, работе с длинным контекстом. Только в отдельных математических тестах конкуренты показывают сопоставимые результаты.

Claude Opus 4.5 сохраняет лидерство в чистом рассуждении и некоторых творческих задачах. GPT-5.2 впереди в экономических симуляциях и стратегическом планировании. Разрыв сокращается с каждым релизом, и момент, когда открытые модели полностью догонят закрытые по всем метрикам, кажется вопросом времени, а не принципиальной невозможности.

Практические тесты пользователей подтверждают цифры. Задачи на пространственное мышление, работу с визуальным контекстом через интеграцию с GLM-4.6V, генерацию структурированных документов в форматах DOCX и XLSX демонстрируют стабильные результаты. Латентность немного выше, чем у предшественника: 150 миллисекунд против 120 на генерацию 50 токенов. Компромисс между качеством и скоростью решается в пользу качества.

Что это значит для индустрии

Демократизация доступа к frontier-уровню AI меняет расклад сил. Стартапы получают инструменты, которые раньше были доступны только крупным корпорациям. Enterprise-клиенты могут развернуть мощную модель на собственной инфраструктуре, сохраняя контроль над данными и избегая зависимости от внешних API.

Исследователи получают возможность экспериментировать с архитектурой такого масштаба. Файн-тюнинг на специализированных датасетах, интеграция с доменными знаниями, создание вертикальных решений для медицины, юриспруденции, финансов становится реалистичным без бюджетов в десятки миллионов долларов.

Экосистема инструментов вокруг открытых моделей расширяется. Оптимизаторы для квантования, адаптеры для различного оборудования, библиотеки для агентных фреймворков появляются быстрее, чем команды успевают документировать. Сообщество движется с той же скоростью, с какой крупные лаборатории двигали индустрию пять лет назад.

Конкуренция вынуждает проприетарных игроков пересматривать стратегии ценообразования и доступа. Аргумент "только мы можем предоставить такое качество" перестаёт работать, когда открытая альтернатива показывает сопоставимые результаты. Фокус смещается на специализацию, уникальные возможности, экосистемные преимущества.

GLM-5 не идеальна. Требования к оборудованию ограничивают аудиторию. Документация местами неполная. Некоторые бенчмарки всё ещё показывают отставание от лидеров. Но траектория развития указывает направление, в котором движется индустрия. Открытость, масштаб и доступность перестают быть взаимоисключающими характеристиками.

Следующие месяцы покажут, как модель проявит себя в реальных продуктах, а не только в синтетических тестах. Интеграции с бизнес-процессами, пользовательский фидбек, случаи успешного применения сформируют окончательное понимание возможностей и ограничений. Февральский релиз поставил точку в одной истории и открыл новую главу в эволюции доступного искусственного интеллекта.