Бенчмарки давно превратились в отдельный жанр технологических новостей. Компании публикуют таблицы, конкуренты оспаривают методологию, журналисты пишут заголовки. Цифры мелькают, не задерживаясь в памяти. Но 19 февраля 2026 года Google опубликовала результат, который сложно проигнорировать даже людям, давно выработавшим иммунитет к бенчмарк-маркетингу. Gemini 3.1 Pro показал 77,1% на ARC-AGI-2, тесте на абстрактное логическое мышление, при том что предшественник, Gemini 3 Pro, набирал на том же тесте 31,1%. Разрыв между двумя поколениями одной модельной семьи, вышедшими с разницей в несколько месяцев, составил 46 процентных пунктов. Это не инкремент. Это другой разговор.

Что такое ARC-AGI-2 и почему именно этот тест вызывает уважение

Большинство языковых бенчмарков проверяют одно и то же: насколько хорошо модель воспроизводит знания, на которых обучалась. Хороший результат на MMLU или HumanEval свидетельствует о качестве обучающего корпуса и тонкостях настройки, но мало говорит о том, способна ли модель справляться с задачами, которых она никогда не видела.

ARC-AGI-2 устроен иначе. Задачи в нём строятся как визуальные паттерны, требующие обнаружения правила из нескольких примеров и применения его к новому случаю. Никакого поиска по памяти, никакого воспроизведения обученного. Только выведение нового правила из ограниченного контекста. Именно поэтому тест воспринимается как приближение к тому, что принято называть общим интеллектом: не энциклопедическая широта, а способность рассуждать там, где знания заканчиваются.

До недавнего времени языковые модели упирались в ARC-AGI-2, как в стену. Сложные архитектуры с огромными корпусами давали результаты значительно ниже среднего человеческого уровня. Именно по этой причине 77,1% у Gemini 3.1 Pro трудно списать на флуктуацию или на ловкость формулировки промпта. Прыжок с 31,1% у Gemini 3 Pro до 77,1% у Gemini 3.1 Pro стал крупнейшим ростом reasoning-метрики за одно поколение среди всех frontier-моделей.

Технические изменения под капотом модели

Google не раскрывает полные детали архитектуры Gemini 3.1 Pro, что стало нормой для крупных лабораторий. Но из опубликованных материалов можно собрать достаточно чёткую картину того, что именно изменилось.

Gemini 3.1 Pro сохраняет контекстное окно в 1 миллион токенов на вводе, а максимальный вывод расширен до 64-65 тысяч токенов, что критически важно для задач, требующих генерации развёрнутого кода или длинных документов. Это не просто количественное улучшение: более длинный вывод позволяет модели разворачивать цепочки рассуждений без обрезки, что напрямую влияет на качество решения многошаговых задач.

Модель поддерживает три режима "думания": низкий, средний и высокий. Результаты бенчмарков приводятся для режима "высокий", что честно обозначено в методологии. Разные режимы дают существенно разные результаты, и выбор режима в боевых задачах будет определяться балансом между качеством ответа и стоимостью вычислений.

Google также ввела специализированный эндпоинт для разработчиков, работающих с агентными сценариями, где смешиваются bash-команды и пользовательские функции. В предыдущих версиях модели нередко выбирали инструмент неоптимально, что было болезненной точкой при построении автономных агентов. Отдельный эндпоинт с оптимизированной логикой выбора инструментов указывает на то, что Google целенаправленно движется в сторону production-ready агентных систем, а не просто улучшает чат.

Среди технических изменений API стоит выделить одно конкретное: поле total_reasoning_tokens переименовано в total_thought_tokens, что отражает концепцию "thought signatures", зашифрованных представлений внутренних рассуждений модели, которые необходимо передавать обратно при многоходовых агентных взаимодействиях. Это небольшая деталь, но она говорит о том, как Google концептуализирует reasoning: не как побочный продукт генерации текста, а как самостоятельный управляемый процесс с состоянием.

Где Gemini 3.1 Pro лидирует и где уступает

Честный разговор о новой модели невозможен без признания того, что лидерство не является тотальным. В бенчмарках SWE-Bench Verified и Humanity's Last Exam первенство удерживает Claude Opus 4.6. GPT-5.3-Codex лидирует в SWE-Bench Pro и Terminal-Bench 2.0 при использовании собственного окружения.

Но важен контекст этих уступок. SWE-Bench Verified проверяет способность закрывать реальные задачи из открытых репозиториев GitHub: это очень конкретный, инструментальный навык, требующий точного понимания кодовой базы и умения работать с тестами. То, что в этой узкой нише Opus 4.6 оказывается сильнее, не обесценивает лидерство Gemini 3.1 Pro в более широком reasoning-профиле.

На LiveCodeBench Pro рейтинг Gemini 3.1 Pro составляет 2887 Elo, что существенно выше GPT-5.2 с результатом 2393 и Gemini 3 Pro с 2439. На GPQA Diamond, тесте на знание науки уровня аспирантуры, модель показывает 94,3%. На MMMLU, масштабном мультиязычном тесте, результат составляет 92,6%.

По данным независимого агрегатора, Gemini 3.1 Pro занимает первое место в 12 из 18 отслеживаемых бенчмарков, сохраняя при этом ценообразование предшественника в 2 доллара за миллион токенов на вводе и 12 долларов на выводе. Соотношение возможностей и стоимости оказывается аргументом, который сложно игнорировать.

Что рост reasoning-метрик означает для рынка агентных систем

Абстрактное логическое мышление интересно само по себе, но в индустрии его ценят не ради академической чистоты. Высокий reasoning означает, что модель способна справляться с задачами, в которых нет шаблонного ответа: отладка нетривиального кода, построение плана из противоречивых требований, навигация по незнакомой кодовой базе, принятие решений в агентном цикле без постоянного вмешательства человека.

Именно здесь начинается практическая ценность. Агент, который "думает" качественнее, реже застревает в петлях ошибок, реже просит уточнений там, где можно вывести правильное решение самостоятельно, и реже выбирает неправильный инструмент. Разница между 31% и 77% на ARC-AGI-2 для конечного пользователя агентной системы ощущается как разница между помощником, который переспрашивает каждый второй шаг, и тем, который доводит задачу до конца.

Gemini 3.1 Pro показывает 69,2% на MCP Atlas, тесте на координацию инструментов, что ставит его на первое место среди протестированных моделей. Координация инструментов это способность в нужный момент обратиться к нужному ресурсу, не путая веб-поиск с локальным файлом, не вызывая одну функцию там, где нужна другая. Это именно тот навык, который отделяет агентный прототип от агентной системы, пригодной к промышленному использованию.

Новое именование и что оно говорит о стратегии Google

Прежде Google использовала суффикс ".5" для промежуточных обновлений: Gemini 2.0 Flash, Gemini 2.5 Pro. Появление версии 3.1 вместо привычного 3.5 сигнализирует о смене ритма. Именование ".1" предполагает более тесный, целевой цикл обновлений с фокусом на конкретных направлениях, в данном случае на reasoning и агентных возможностях, без масштабных архитектурных изменений.

Это рыночный сигнал не менее важный, чем сами цифры бенчмарков. Google показывает, что готова выпускать сфокусированные улучшения быстро, не дожидаясь накопления достаточного количества изменений для "мажорного" релиза. Темп итераций становится конкурентным преимуществом наравне с качеством модели.

Скептицизм в отношении бенчмарков уместен всегда. Результаты измерены в режиме "высокое мышление", который в продакшене стоит дороже и работает медленнее. Реальная практика всегда сложнее аккуратно подобранных тестовых наборов. Но даже с поправкой на весь этот скептицизм, прыжок в 46 процентных пунктов на тесте, специально разработанном для того, чтобы его нельзя было преодолеть зазубриванием, говорит о том, что что-то в архитектуре reasoning действительно изменилось. Не в маркетинге. В модели.