Пока весь рынок следил за гонкой параметров, Google атаковала проблему с другой стороны. Две новости конца марта 2026 года затрагивают то, о чём меньше всего принято говорить публично: сколько памяти поглощает ИИ в процессе работы и насколько неестественно он звучит в живом разговоре. TurboQuant решает первую проблему через математику, Gemini 3.1 Flash Live решает вторую через архитектуру. Вместе они рисуют контуры следующего этапа развёртывания ИИ на реальном железе.
Рынок отреагировал мгновенно. Акции производителей памяти Samsung, SK Hynix и Micron обрушились в течение суток после публикации TurboQuant. Инвесторы поняли раньше многих инженеров: если модели начинают потреблять в шесть раз меньше памяти, экономика всей инфраструктуры ИИ меняется кардинально.
KV-кэш съедает больше видеопамяти чем сами веса языковой модели
Когда трансформерная модель генерирует текст, она вычисляет векторы ключей и значений для каждого токена в контексте и сохраняет их, чтобы не пересчитывать при каждом следующем шаге. Это и есть KV-кэш. Он растёт линейно с длиной контекста, и всё это хранится в полной точности в формате FP16.
В реальных цифрах это выглядит так: запуск модели на 70 миллиардов параметров для 512 одновременных пользователей может требовать 512 гигабайт памяти только под кэш, что почти в четыре раза больше, чем занимают сами веса модели. Иными словами, модель - это лишь верхушка айсберга. Настоящая нагрузка прячется в кэше.
Традиционные методы квантования при этом создавали собственную проблему: большинство из них требовали хранить "константы квантования" - метаданные для восстановления сжатых данных. Это добавляло один-два лишних бита на каждое число и частично сводило на нет весь выигрыш от сжатия. Агрессивнее сжимаешь - больше служебных данных нужно хранить. Замкнутый круг, в котором инженеры сидели годами.
PolarQuant переводит векторы в полярные координаты и ломает этот круг
TurboQuant решает задачу через двухшаговый механизм. Первый шаг, PolarQuant, случайным образом поворачивает векторы данных, чтобы упростить их геометрическую структуру. После поворота каждую часть вектора можно квантовать отдельно, эффективнее, чем раньше, и без необходимости хранить метаданные нормализации.
Если объяснять образно: стандартное квантование работает в декартовых координатах, измеряя расстояния вдоль привычных осей. PolarQuant переходит в полярную систему, где каждый вектор описывается через радиус и набор углов. Радиус несёт информацию о силе сигнала, углы кодируют смысл. После поворота угловые распределения становятся предсказуемыми и концентрированными, а значит, дорогостоящие нормализационные константы для каждого блока просто не нужны.
Второй шаг работает как математическая система коррекции ошибок. Даже после PolarQuant остаётся небольшой остаток ошибки. TurboQuant применяет к нему однобитовое преобразование QJL - Quantized Johnson-Lindenstrauss. Сводя каждое число к простому знаковому биту, плюс или минус, QJL выступает несмещённым оценщиком. Это гарантирует, что при вычислении оценок внимания сжатая версия остаётся статистически идентичной высокоточному оригиналу.
Результаты на H100 и тест "иголка в стоге сена" без единой потери точности
TurboQuant доказал способность квантовать KV-кэш до трёх бит без дополнительного обучения или дообучения и без снижения точности модели, при этом обеспечивая более высокую скорость по сравнению с исходными моделями на базе Gemma и Mistral. На тесте "иголка в стоге сена", который проверяет способность модели найти одно конкретное предложение среди ста тысяч слов, TurboQuant показал идеальные результаты по всем контрольным точкам, сократив при этом размер KV-кэша как минимум в шесть раз. На GPU-ускорителях H100 четырёхбитный TurboQuant обеспечил прирост производительности до восьми раз при вычислении логитов внимания по сравнению с 32-битными неквантованными ключами.
Четыре бита - оптимальный вариант для большинства задач. При четырёх битах качество практически неотличимо от FP16 на моделях от трёх миллиардов параметров и выше. При трёх битах компрессия агрессивнее, но на моделях меньше восьми миллиардов параметров начинается заметное ухудшение: малые модели чувствительнее к шуму квантования, особенно в диапазоне от 0,5 до 1,6 миллиарда параметров.
Честно говоря, восемь раз прироста на H100 при сжатии в шесть раз - это уже не просто оптимизация. Это другая экономика инференса. Операторы облачных платформ, которые сегодня выделяют целые серверные стойки под кэш параллельных сессий, завтра смогут обслуживать в шесть раз больше пользователей на том же железе.
TurboQuant совместим с обрезкой токенов и открывает путь к ИИ на смартфонах
TurboQuant совместим с методами обрезки токенов, такими как SnapKV и PyramidKV. Если TurboQuant уменьшает размер каждого элемента данных сохраняя все токены, то SnapKV и PyramidKV сокращают число сохраняемых токенов, отбрасывая менее важные. Объединение двух подходов способно обеспечить до 96-кратного снижения объёма памяти. Технология ожидаемо ускорит развитие ИИ на устройствах, позволяя крупным моделям эффективно работать на смартфонах и роботизированных системах с ограниченной памятью.
Модель, которая раньше требовала серверного GPU, теперь потенциально помещается в телефон. Это не метафора - это конкретное следствие из конкретных цифр сжатия.
Gemini 3.1 Flash Live убрал "стек ожидания" из голосового ИИ
Параллельно с TurboQuant, 26 марта 2026 года, Google запустила Gemini 3.1 Flash Live. Это не косметическое обновление - речь идёт о смене самой архитектуры голосового взаимодействия.
Прежние голосовые системы работали по одной и той же схеме: система ждала тишины, потом транскрибировала речь, потом отправляла текст в языковую модель, потом синтезировала звук обратно. К моменту, когда ИИ произносил ответ, человек уже мысленно ушёл дальше. Gemini 3.1 Flash Live сворачивает этот стек за счёт нативной обработки аудио без промежуточных шагов транскрипции. Модель слышит речь напрямую и отвечает напрямую.
На бенчмарке ComplexFuncBench Audio, который оценивает многошаговые вызовы функций с различными ограничениями, Gemini 3.1 Flash Live показывает результат в 90,8%. На Audio MultiChallenge от Scale AI, проверяющем способность сохранять фокус при перебивании, паузах и фоновом шуме, модель набирает 36,1% с включённым мышлением.
Настраиваемая глубина мышления и реальная работа с фоновым шумом в Gemini 3.1 Flash Live
Один из наиболее практичных инструментов для разработчиков - параметр thinkingLevel, который позволяет выбирать между уровнями minimal, low, medium и high. На высоком уровне мышления модель набирает 95,9% на Big Bench Audio Benchmark при времени ответа 2,98 секунды. На минимальном уровне качество снижается до 70,5%, но время ответа сокращается до 0,96 секунды.
Модель эффективнее отфильтровывает фоновый шум - проезжающие машины, включённый телевизор - и обрабатывает только релевантную речь. Поддержка превышает 90 языков для мультимодальных разговоров в реальном времени. Улучшены следование сложным системным инструкциям и способность активировать внешние инструменты во время живых разговоров. Модель поддерживает нить рассуждений вдвое дольше по сравнению с предыдущими версиями, что решает хроническую проблему голосовых ассистентов, которые теряли контекст сложной задачи на середине разговора.
Два технических события, случившихся в течение трёх дней, закрывают два самых раздражающих белых пятна в индустрии. TurboQuant отвечает на вопрос о памяти через математику полярных координат и однобитовую коррекцию ошибок. Gemini 3.1 Flash Live отвечает на вопрос о естественности через нативную аудиообработку и настраиваемую глубину мышления. Обе технологии уже доступны разработчикам в режиме предварительного просмотра и будут представлены на ICLR 2026 и AISTATS 2026. Это не горизонт, который виднеется вдали. Это уже сегодняшний день, который большинство просто ещё не заметило.