Первая декада мая 2026 года стала редким случаем, когда четыре крупнейшие команды отрасли выпустили заметные обновления почти синхронно. 5 мая OpenAI заменила дефолтную модель ChatGPT новой GPT-5.5 Instant. 6 мая Anthropic презентовала функцию Dreaming для Claude и стартап Zyphra выложил ZAYA1-8B в открытый доступ. 7 мая OpenAI добавила три голосовые модели в Realtime API, Google закрепил Gemini 3.1 Flash-Lite в режиме general availability на следующий день. Сжатый календарь релизов показал, в какую сторону движутся приоритеты индустрии - меньше упора на сырую размерность моделей, больше внимания к практическому поведению в продакшене.

GPT-5.5 Instant обещает сократить галлюцинации более чем в два раза в чувствительных доменах

5 мая OpenAI выкатила GPT-5.5 Instant как новую дефолтную модель для всех пользователей ChatGPT - бесплатных и платных. Прежняя GPT-5.3 Instant ушла в архив, оставшись доступной платным подписчикам ещё три месяца через настройки модели. Главная заявка релиза касается не возможностей, а надёжности. По внутренним оценкам OpenAI новая модель производит на 52.5 процента меньше галлюцинированных утверждений, чем предшественница, на high-stakes запросах в областях медицины, права и финансов. Дополнительно компания указывает на снижение неточных утверждений на 37.3 процента в особенно сложных диалогах, которые пользователи помечали как содержащие фактические ошибки.

Бенчмарковые результаты тоже сдвинулись заметно. На математическом тесте AIME 2025 GPT-5.5 Instant набрала 81.2 против 65.4 у GPT-5.3 Instant. На мультимодальном тесте рассуждений MMMU-Pro - 76 против 69.2. Цифры показывают, что Instant перестал быть просто быстрым ответом для повседневных задач и приблизился по качеству к моделям предыдущего поколения, требовавшим длинных рассуждений.

Любопытная деталь, которая показывает изменение философии OpenAI. Новая модель использует примерно на 30 процентов меньше слов и на 29 процентов меньше строк для передачи того же смысла. Компания целенаправленно борется с многословностью и неоправданными эмодзи, которые превратились в визитную карточку прежнего ChatGPT. Внутреннее тестирование показало, что многие пользователи воспринимали такой стиль как захламлённый и навязчивый. Параллельно расширяются возможности персонализации - модель теперь умеет обращаться к прошлым диалогам, файлам и подключённому Gmail, чтобы давать более релевантные ответы. Доступ к этой функции запустился для пользователей Plus и Pro на веб-версии, остальные планы получат её позже.

Gemini 3.1 Flash-Lite вышел в general availability с упором на дешёвый высокий throughput

8 мая Google перевёл Gemini 3.1 Flash-Lite в general availability. Превью этой модели появилось ещё 3 марта, и за два месяца разработчики успели протестировать её на реальных нагрузках. Цифры из ранних развёртываний выглядят показательно. P95 latency для полного ответа около 1.8 секунды, sub-second p95 для классификаторов и вызовов инструментов, 99.6 процента успешности при высокой одновременной нагрузке, примерно на 60 процентов ниже стоимость по сравнению с моделями thinking-уровня на одинаковом наборе токенов.

Цена закрепилась на уровне $0.25 за миллион входных токенов и $1.50 за миллион выходных, что делает Flash-Lite одной из самых выгодных опций среди современных reasoning-моделей. Контекстное окно достигает миллиона токенов. Любопытная архитектурная находка - это lite-модель, которая одновременно умнее и дешевле предыдущего тира. На бенчмарке Artificial Analysis Intelligence Index Flash-Lite набрала 34 против 21 у Gemini 2.5 Flash. На сложном научном тесте GPQA Diamond - 86.9 процента, обогнав свою же старшую сестру предыдущего поколения. Скорость генерации тоже впечатляет - 381 токен в секунду против 232 у Gemini 2.5 Flash.

Релиз Flash-Lite в полной доступности произошёл за пару недель до Google I/O 2026, который запланирован на 19-20 мая. Слухи говорят о готовом к анонсу Gemini 3.2 Flash, который уже всплыл в стелс-тестировании в iOS-приложении Gemini и Google AI Studio. По утечкам, новая модель обещает кодинг уровня Pro по цене Flash, что снова перетряхнёт расценки сегмента.

ZAYA1-8B показал, что плотность интеллекта на параметр становится новой метрикой соревнования

6 мая малоизвестный стартап из Пало-Альто Zyphra выпустил ZAYA1-8B - mixture-of-experts модель с 8.4 миллиарда параметров суммарно и менее одного миллиарда активных. Модель распространяется под лицензией Apache 2.0 на Hugging Face и доступна как serverless эндпоинт в Zyphra Cloud. История этого релиза интересна сразу с нескольких сторон.

Технически ZAYA1-8B - первый крупный пример модели, обученной целиком на стеке AMD. Тренировка проходила на кластерах AMD Instinct MI300X с сетью AMD Pensando Pollara в инфраструктуре IBM Cloud. Это политически значимая точка - до сих пор практически вся frontier-разработка шла на стеке Nvidia, и появление работающей альтернативы меняет переговорные позиции крупных команд при выборе железа.

Архитектурно модель использует несколько новых решений Zyphra. Compressed Convolutional Attention заменяет классический механизм внимания на более эффективный вариант. Новый MLP-based роутер экспертов улучшает стабильность маршрутизации по сравнению со стандартными линейными роутерами. Learned residual scaling контролирует рост норм остатков через глубину сети при незначительных дополнительных затратах параметров и FLOPs.

Бенчмарки производят впечатление, особенно с учётом размера модели. На AIME'25 - 91.9 процента с использованием собственного метода Zyphra под названием Markovian RSA. На HMMT'25 - 89.6, обогнав Claude 4.5 Sonnet и GPT-5-High с их 88.3. Зыфра конкурирует с открытыми моделями вроде Nemotron-3-Nano-30B-A3B и Mistral-Small-4-119B, превосходя их при меньшем числе активных параметров.

Пост-тренировка ZAYA1-8B заслуживает отдельного абзаца. Большинство команд используют один этап обучения с подкреплением, Zyphra применила четырёхступенчатый каскад. Сначала идёт reasoning warmup на математике и головоломках. Затем адаптивный учебный план RLVE-Gym из 400 окружений возрастающей сложности. После этого масштабное RL на математике и коде с трейсами test-time compute. И финальная behavioral RL-стадия для качества диалога и следования инструкциям. Подход дисциплинированный и редкий для индустрии, привыкшей к более простым пайплайнам.

OpenAI добавила три голосовые модели и превратила Realtime API в полноценный голосовой стек

7 мая OpenAI представила три новые голосовые модели в Realtime API, генерально доступные для продакшен-агентов:

  1. GPT-Realtime-2 как первая голосовая модель с reasoning уровня GPT-5, способная обрабатывать сложные запросы, вызывать инструменты и восстанавливаться после прерываний;
  2. GPT-Realtime-Translate для перевода речи в реальном времени с 70 с лишним входных языков на 13 выходных, поддерживая темп говорящего;
  3. GPT-Realtime-Whisper для потокового speech-to-text с минимальной задержкой, выдающего частичные транскрипты прямо по ходу речи и финальные сегменты по окончании реплики;
  4. Расширенное контекстное окно с 32 тысяч до 128 тысяч токенов в основной голосовой модели для длинных рабочих процессов;
  5. Настраиваемая интенсивность рассуждений от минимальной до very high, позволяющая выбирать между задержкой и глубиной анализа.

Цены установились на уровне 32 доллара за миллион входных аудио-токенов GPT-Realtime-2 и 64 доллара за миллион выходных, кэшированный вход стоит 40 центов. GPT-Realtime-Translate тарифицируется поминутно по 3.4 цента, GPT-Realtime-Whisper - по 1.7 цента. Эти расценки ставят OpenAI в конкурентную позицию против классических API распознавания речи и перевода, особенно с учётом возможности связывать рассуждение, перевод и транскрипцию в одной системе.

Тестирование в реальных условиях дало впечатляющие цифры. Zillow сообщил о приросте успешности вызовов на 26 процентных пунктов на своём сложнейшем adversarial benchmark, с 69 до 95 процентов после оптимизации промптов под GPT-Realtime-2. На внутреннем тесте Big Bench Audio новая модель показала на 15.2 процента лучше, чем GPT-Realtime-1.5, на Audio Multichallenger для следования инструкциям - на 13.8.

Dreaming от Anthropic превращает агентов в системы, которые учатся между сессиями

6 мая на конференции Code with Claude в Сан-Франциско Anthropic презентовала Dreaming - функцию для Claude Managed Agents, которая работает как фоновый процесс между сессиями. Ami Vora, главный продуктовый директор компании, объяснила механизм буквально - агенты теперь видят сны. Между активными задачами система просматривает все, что агент делал в предыдущих сессиях, извлекает паттерны и записывает новые элементы памяти, которые следующая сессия использует автоматически.

Аналогия с человеческой нейробиологией прямая. Anthropic сравнивает Dreaming с консолидацией памяти в гиппокампе - тем процессом, который мозг проводит во сне, проигрывая события дня и решая, что сохранить. Технически система не меняет веса модели, она работает с внешним слоем памяти. После каждой сессии сохраняются структурированные логи - не просто транскрипт разговора, а метаданные о результатах задачи, внесённых правках, потраченном времени, неудачных вызовах инструментов, использованных элементах памяти. Между сессиями отдельный процесс анализирует эти логи через несколько сеансов сразу, ищет статистические паттерны - что повторялось, какие правки кластеризуются вокруг определённых типов задач, какие записи памяти запрашивались часто, а какие никогда.

Производственные результаты на ранних развёртываниях оказались впечатляющими. Юридический ИИ-стартап Harvey, который был первым партнёром пилота, увидел рост completion rate задач примерно в шесть раз. Раньше агенты постоянно забывали особенности форматов файлов и обходные пути для конкретных инструментов, и одни и те же задачи юридического драфта проваливались по одним и тем же причинам. С Dreaming эти обходные пути закрепились в памяти. Wisedocs, компания медицинского документооборота, сократила время ревизии документов на 50 процентов. Netflix запустил обработку логов сотен билдов одновременно через мультиагентную оркестрацию.

Параллельно с Dreaming Anthropic вывела в публичную бета две другие функции - outcomes и multi-agent orchestration. Outcomes даёт возможность написать рубрику, описывающую успех, после чего отдельный grader-агент оценивает результат основного агента в своём независимом контексте. Если результат не проходит рубрику, grader указывает, что нужно изменить, и агент делает следующую попытку до тех пор, пока не уложится в критерии. В внутренних бенчмарках Anthropic outcomes улучшил успешность задач на 10 пунктов. Multi-agent orchestration позволяет запускать до 20 параллельных специализированных агентов с диспетчером, координирующим их работу.

Безопасность Dreaming остаётся открытым вопросом, который Anthropic признаёт открыто

У Dreaming есть очевидная уязвимость, на которую Anthropic честно указывает в документации. Если зловредный ввод сможет убедить агента, что неправильная инструкция - правильная, Dreaming может консолидировать эту неправильную инструкцию в долгосрочное хранилище памяти, откуда она будет применяться к будущим сессиям автоматически. Компания рекомендует обязательную человеческую ревизию обновлений памяти для высокоответственных рабочих процессов. Harvey подтвердил эту логику с практической стороны - в их пилоте Dreaming работал лучше всего в паре с тщательно написанной рубрикой outcomes, чтобы любой дрейф памяти ловился grader на следующем запуске.

Контекст этого релиза становится понятнее на фоне общей конкурентной картины. Рост Anthropic в первом квартале 2026 года превысил собственные планы компании в восемь раз. Компания планировала удесятерить годовую выручку, а получила восьмидесятикратный рост по выручке и использованию. Mercado Libre, крупнейшая e-commerce платформа Латинской Америки, имеет 23 тысячи инженеров, запускающих Claude Code. Платформа уже обработала более 500 тысяч pull request с человеческим контролем и целится в 90 процентов автономного кодирования к третьему кварталу. Shopify развернула Claude Code не только в инженерных командах, но и в дизайне, продуктовом менеджменте, дата-сайенс.

Кардинальный сдвиг в индустрии лежит за пределами отдельных моделей и касается архитектуры памяти

Если сложить все майские релизы вместе, картина получается выразительной. OpenAI делает дефолтную модель ChatGPT надёжнее в чувствительных доменах. Google закрепляет дешёвую модель с reasoning-возможностями для массовых нагрузок. Zyphra показывает, что плотность интеллекта может расти быстрее размера. OpenAI открывает голосовой канал с настоящим рассуждением. Anthropic делает агентов системами, которые улучшаются от сессии к сессии без переобучения весов.

Общий вектор очевиден - индустрия выходит из фазы соревнования по сырой размерности моделей в фазу инженерного выстраивания вокруг них. Гонка теперь идёт за то, у кого лучше отлажен слой памяти, дешевле обработка нагрузки, точнее работают агенты в производственных задачах. Бенчмарки на математических олимпиадах продолжают расти, но реальные деньги делаются на том, что Mercado Libre автоматизирует 90 процентов кодинга, а Harvey ускоряет юридический драфт в шесть раз.

Любопытная деталь о темпе развития. Между релизом GPT-5 в августе 2024 года и GPT-5.5 Instant в мае 2026 года прошло чуть больше полутора лет. За это же время Anthropic прошла путь от первых Claude-моделей до Managed Agents с автономным улучшением через сон. Google перешёл с Gemini 2.0 на 3.1 с lite-моделями, превосходящими старые Pro по интеллекту. Малые лаборатории вроде Zyphra успели обучиться на альтернативном железе и догнать первое поколение frontier-моделей. Календарь технологии сжимается, и месяц 2026 года содержит в себе больше изменений, чем кварталы 2023.

Май 2026 года стал точкой, в которой ИИ-индустрия перешагнула важный порог. Модели перестали быть продуктом, а превратились в постоянно обновляемый сервисный слой. Дефолтные настройки ChatGPT для сотен миллионов пользователей меняются за один день. Открытые модели на новом железе ставят под сомнение монополию доминирующих лабораторий. Голосовой канал получает полноценное рассуждение. Агенты учатся между сменами без человеческого участия. Ландшафт, который казался стабильным ещё в начале года, перетряхнулся за одну неделю.