17 февраля 2026 года Илон Маск опубликовал короткое сообщение: "Релиз-кандидат Grok 4.2 (публичная бета) теперь доступен. Нужно выбрать его специально. Критическая обратная связь приветствуется. В отличие от предыдущих версий Grok, 4.2 способен учиться быстро, поэтому каждую неделю будут выходить улучшения с примечаниями к релизу." В этих трёх предложениях, произнесённых без пресс-конференции и без слайдов, сжато практически всё, что отличает новую версию от предшественников. Grok 4.2 учится на ходу. Его обновляют еженедельно. И впервые за историю серии он не является одной моделью.
Четыре агента вместо одного и почему это не просто маркетинговый трюк
Главное архитектурное решение Grok 4.2 состоит в том, что ответ на каждый сложный запрос формирует не одна модель, а команда из четырёх специализированных агентов. Все четверо работают параллельно, получая одинаковый контекст, но подходя к задаче с разных сторон. Это не пользовательский фреймворк, который нужно настраивать вручную, как AutoGen или Swarm, а встроенная инфраструктура вывода, срабатывающая автоматически при достаточно сложных запросах.
Роли распределены жёстко. Grok выступает капитаном и координатором: он декомпозирует задачу, задаёт стратегию, разрешает конфликты между агентами и синтезирует финальный ответ. Harper отвечает за исследование и факты: он выполняет поиск в реальном времени, включая доступ к потоку данных X с около 68 миллионами англоязычных твитов в сутки, собирает доказательства и верифицирует фактические утверждения. Benjamin занимается математикой, кодом и логикой: пошаговые рассуждения, численные проверки, программирование, математические доказательства. Lucas отвечает за творческое мышление: дивергентные идеи, нестандартные подходы, оценку пользовательского опыта.
Рабочий процесс выстроен в четыре этапа. Сначала Grok анализирует запрос и одновременно распределяет подзадачи по специалистам. Затем все четыре агента независимо генерируют первичный анализ в параллельном режиме, а не последовательно. После этого начинается внутренняя дискуссия: Harper проверяет фактические утверждения, Benjamin тестирует логическую состоятельность вычислений, Lucas ищет упущенные перспективы и когнитивные искажения. Агенты итеративно корректируют друг друга до достижения консенсуса. Наконец, Grok агрегирует сильнейшие элементы и выдаёт единственный финальный ответ.
Почему это важно за пределами архитектурной красоты? Ответ прост. Одна модель, генерирующая текст, работает в одном направлении и не имеет встроенного механизма самопроверки. Четыре агента, которые видят ответы друг друга и критикуют их в реальном времени, воспроизводят нечто похожее на то, как работает нормальная научная или аналитическая команда: один формулирует, другой проверяет данные, третий ищет логические ошибки, четвёртый думает о том, что упустили первые трое.
Rapid Learning как смена парадигмы обновления модели
Все предыдущие версии Grok были статичными после релиза. После выхода модели она оставалась неизменной до следующего крупного обновления. Grok 4.2 устроен иначе.
Архитектура быстрого обучения позволяет модели включать пользовательскую обратную связь и улучшать возможности на еженедельной основе в отличие от статичных моделей, требующих полных циклов переобучения. Маск подтвердил, что примечания к релизу будут сопровождать каждое обновление, делая Grok 4.2 первой версией в серии, которая итерирует в режиме, близком к реальному времени после запуска.
Это меняет отношения между разработчиком и пользователем. Для пользователей возникает необычная динамика: модель, которую используешь сегодня, может заметно лучше работать на следующей неделе. Это означает, что ранние пользователи являются не просто бета-тестерами, а активными участниками траектории развития модели. Маск прямо сказал, что Grok 4.2 "будет примерно на порядок умнее и быстрее, чем Grok 4, когда публичная бета завершится в следующем месяце", а ежедневно разворачиваются "многочисленные исправления и улучшения".
Для индустрии это показательный эксперимент. Традиционный подход предполагает: тренируй модель, оценивай, выпускай, жди следующего цикла. Grok 4.2 пробует другую модель: выпускай раньше, улучшай непрерывно, используй реальные запросы реальных пользователей как обучающий сигнал. Приживётся ли этот подход, покажут результаты, которые xAI обещает опубликовать после завершения беты в середине марта.
Производительность по реальным тестам и честный взгляд на слабые стороны
На Alpha Arena Season 1.5, соревновании по торговле акциями в реальном времени в январе 2026 года, Grok 4.20 превратил $10 000 в $11 000-13 500 при базовой конфигурации и до $13 400-14 700 в оптимизированных вариантах. Это единственная прибыльная модель: четыре варианта Grok 4.20 заняли четыре из шести верхних позиций, тогда как соперники от OpenAI и Google завершили соревнование с убытком. Модель использовала реальные данные о настроении в X и ценовые сигналы с горизонтом от одной до пяти минут.
На ForecastBench, глобальном рейтинге прогнозирования ИИ, Grok 4.20 занял второе место, превзойдя GPT-5, Gemini 3 Pro, Claude Opus 4.5 и сократив разрыв до элитных человеческих суперпрогнозистов. Расчётный рейтинг Elo для LMArena оценивается приблизительно в 1505-1535 пунктов в предварительном зачёте, хотя официальная позиция в рейтинге появится только после завершения беты.
Честность требует упомянуть и слабые стороны. Тестировщики отмечали периодические ошибки в базовом визуальном рассуждении, включая неправильный подсчёт сторон геометрических фигур, и орфографические ошибки в собственных объяснениях. Вычислительная стоимость высока: пользователи сообщали о достижении лимитов использования менее чем через десять сообщений. Это не модель для непринуждённой переписки, она лучше всего подходит для задач, которые действительно выигрывают от глубокого многоагентного рассуждения.
Маск публично признал, что в задачах программирования Grok 4.2 не превосходит Claude Opus 4.5 от Anthropic. Для человека, который редко идёт на публичные уступки, это примечательное заявление. Оно честно обозначает нишу, в которой Grok 4.2 силён, и область, которая требует дальнейшей работы.
Техническая архитектура и цена входного билета
Grok 4.20 унаследовал мощную основу серии Grok 4: тренировочный кластер Colossus на 200 000 GPU, масштабное обучение с подкреплением на уровне предобучения с ростом вычислительной эффективности примерно в шесть раз по сравнению с предыдущим поколением. Контекстное окно составляет не менее 256 000 токенов, а некоторые конфигурации API поддерживают до 2 миллионов токенов для ультрадлинных документов и сложного кода.
Базовая версия Grok 4.2 в бете является уменьшенным вариантом с 500 миллиардами параметров, тогда как средняя и большая версии запланированы для будущих релизов. Полный параметрический масштаб основной модели публично не раскрыт.
xAI предлагает Grok 4.2 по условно-бесплатной модели. Публичная бета доступна бесплатно через веб и мобильные приложения, хотя ранние отчёты указывают на лимит примерно в семь запросов с последующим четырёхчасовым ожиданием. Для интенсивных пользователей компания представила SuperGrok Heavy, премиальную подписку, которая расширяет совместную команду с 4 до 16 агентов. Стоимость этого уровня составляет $300 в месяц. Базовый SuperGrok с четырьмя агентами обходится в $30 в месяц.
Переход от 4 до 16 агентов в Heavy-режиме: это не просто масштабирование того же подхода. 16 агентов позволяют охватить задачу из значительно большего числа специализированных перспектив одновременно, что особенно ценно в сценариях комплексного исследования, где риск упустить важный аспект при единственном рассуждении особенно высок.
Что означает этот релиз для конкурентного пейзажа AI
Grok 4.2 вышел в тот же день, что и Claude Sonnet 4.6 от Anthropic, который сфокусирован на более традиционном подходе с одной моделью и контекстным окном в 1 миллион токенов. Это совпадение по датам неслучайно отражает характер нынешней гонки: frontier-лаборатории движутся настолько быстро, что крупные релизы накладываются друг на друга.
Принципиальный вопрос, который Grok 4.2 ставит перед индустрией, звучит примерно так: что лучше для сложных задач, одна очень большая модель с максимальным качеством единственного рассуждения или команда специализированных агентов, которые проверяют друг друга в реальном времени? Ответ, вероятно, зависит от типа задачи, и это само по себе ценное наблюдение. Grok 4.2 делает ставку на второй подход как на архитектурный приоритет, а не как на надстройку над существующей моделью.
Официальные данные бенчмарков xAI обещает опубликовать после завершения публичной беты, которую Маск оценивает примерно в месяц от даты запуска. До середины марта картина будет оставаться неполной. Но то, что уже видно из первых недель работы системы, даёт достаточно материала для вывода: мультиагентный подход в исполнении Grok 4.2 это не демонстрационный стенд, а работающая архитектура с конкретными преимуществами в задачах, требующих одновременно фактической точности, логической строгости и широты охвата.