Когда алгоритм сжатия данных вызывает массовые отсылки к комедийному сериалу десятилетней давности - это верный признак того, что в нём есть что-то по-настоящему неожиданное. 25 марта 2026 года Google Research опубликовала статью о TurboQuant - методе компрессии памяти для языковых моделей, который сокращает объём рабочей памяти при инференсе примерно в шесть раз без потери качества. Сравнение с вымышленным стартапом Pied Piper из сериала HBO "Кремниевая долина" немедленно заполонило технические форумы: там компания-герой тоже создала прорывной алгоритм сжатия с почти нулевыми потерями. Разница в том, что TurboQuant существует в реальности - и будет представлен на конференции ICLR 2026.

Что такое KV-кэш и почему его сжатие меняет экономику инференса

Чтобы понять, почему TurboQuant вызвал такой резонанс, нужно разобраться в том, что именно он сжимает. Когда трансформерная модель генерирует текст, она вычисляет ключевые векторы (Key) и векторы значений (Value) для каждого токена в контексте и сохраняет их в так называемом KV-кэше - чтобы не пересчитывать их заново на каждом шаге генерации.

Эта структура растёт линейно с длиной контекста. Модель с окном в 128 000 токенов хранит KV-кэш, который при полной точности FP16 занимает десятки гигабайт видеопамяти. Именно поэтому длинный контекст - это скрытый множитель затрат в корпоративных AI-системах: каждое удвоение контекста примерно удваивает потребность в памяти. Организации вынуждены либо платить за дорогие GPU с большой памятью, либо искусственно обрезать контекст ниже того, что реально нужно задаче.

Традиционные методы квантизации - преобразования данных с высокой точностью в более компактное представление - создают собственную проблему: для каждого небольшого блока данных нужно хранить нормализационные константы в полной точности, что "съедает" 1-2 бита из каждого значения и снижает реальный выигрыш от компрессии. TurboQuant атакует именно эту накладную стоимость.

Как работает двухступенчатая архитектура PolarQuant и QJL

TurboQuant - двухступенчатый конвейер сжатия, не требующий обучающих данных, калибровки или тонкой настройки под конкретную модель. Он работает с любой трансформерной архитектурой как есть.

Первый этап выполняет PolarQuant. Метод применяет случайное ортогональное вращение к каждому KV-вектору - операцию, которую можно эффективно реализовать через быстрое преобразование Уолша-Адамара. Вращение распределяет "энергию" вектора равномерно по всем координатам: вместо данных с непредсказуемыми выбросами получается хорошо изученное бета-распределение. Зная распределение заранее, алгоритм может один раз вычислить математически оптимальный набор квантизационных границ по алгоритму Ллойда-Макса - и использовать их без изменений для любой модели, слоя или головы внимания. Необходимость хранить нормализационные константы исчезает математически, а не управляется операционно.

Второй этап - Quantized Johnson-Lindenstrauss (QJL). После сжатия PolarQuant остаётся небольшая систематическая ошибка. QJL применяет математику теоремы Джонсона-Линденштраусса, чтобы оценить эту остаточную ошибку, используя всего один бит на координату - знак ошибки "+1" или "-1". Один дополнительный бит фактически создаёт математический корректор, который устраняет направленное смещение в оценках скоров внимания без какой-либо дополнительной нагрузки на память.

Итоговый бюджет памяти для вектора размерности 128: 3 бита от PolarQuant плюс 0.5 бита от QJL - примерно 3.5 бита на значение вместо 16 бит в FP16. Коэффициент компрессии при этом близок к теоретически оптимальному: согласно математическому анализу, искажение превышает нижнюю информационно-теоретическую границу всего в 2.7 раза, то есть sqrt(3π/2).

Google тестировала алгоритм на открытых моделях Llama-3.1-8B-Instruct и Mistral-7B-Instruct по пяти стандартным бенчмаркам для длинного контекста: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval. По всем задачам - вопросно-ответные системы, генерация кода, суммаризация - TurboQuant совпал с полноточным результатом при сокращении памяти минимум в шесть раз. На тестах типа "иголка в стоге сена", специально разработанных для проверки способности модели извлекать единственный релевантный факт из огромного документа, алгоритм показал идеальную точность.

Почему CEO Cloudflare назвал это "моментом DeepSeek" для Запада

Резонанс в индустрии вышел за рамки академических обсуждений. Генеральный директор Cloudflare Мэтью Принс публично охарактеризовал TurboQuant как "момент DeepSeek" для западной AI-отрасли - отсылка к тому, как китайская модель DeepSeek показала конкурентоспособные результаты, обученная на значительно более ограниченных ресурсах.

Аналогия точна в одном ключевом смысле: и DeepSeek, и TurboQuant представляют сдвиг фокуса с наращивания вычислительной мощности на повышение эффективности её использования. Если несколько лет индустрия увеличивала производительность преимущественно через наращивание FLOPs и объёмов памяти, то подход TurboQuant говорит другое: в уже существующих матрицах и кэшах есть огромный резерв эффективности, который не требует нового кремния.

Финансовые рынки восприняли новость буквально: после анонса акции производителей памяти - Samsung, SK Hynix и Micron - упали. Инвесторы ожидаемо интерпретировали алгоритм как угрозу спросу на аппаратную память.

Однако параллели с DeepSeek следует принимать с оговоркой. TurboQuant нацелен исключительно на память при инференсе - на рабочий KV-кэш. Обучение моделей по-прежнему требует огромных объёмов RAM и GPU, и TurboQuant здесь ничего не меняет. Глобальный дефицит памяти, обусловленный ростом AI, этот алгоритм не решит - он оптимизирует лишь одно звено в цепочке.

Что происходит с реализацией и где ограничения метода

Официальная открытая реализация Google ожидается ориентировочно во втором квартале 2026 года. Тем временем сообщество уже работает самостоятельно: в трекере llama.cpp открыт запрос на интеграцию с рабочей реализацией на CPU (C, без зависимостей) и CUDA-ядрами. Независимые разработчики подтвердили результаты бумаги на практике: TQ3 (3-бит) даёт 4.9x компрессию относительно FP16 при MSE совпадающем с данными статьи.

Практические эксперименты сообщества внесли одну интересную поправку: часть разработчиков обнаружила, что этап PolarQuant в сочетании с MSE-квантизацией даёт сопоставимые или лучшие результаты, чем полный конвейер с QJL, - особенно на небольших моделях с малой размерностью головы внимания. QJL устраняет систематическое смещение, но вносит дисперсию, которую механизм softmax-внимания усиливает сильнее, чем само смещение. Это не опровергает статью - она честно указывает условия применимости - но добавляет нюанс к практическому развёртыванию.

Малые модели с числом параметров до 1-2 миллиарда требуют особой осторожности: при 3-битном квантизовании на них заметна деградация качества. Чёткая граница применимости - модели от 7-8 миллиарда параметров и выше, где результаты устойчивы.

Для инфраструктурной стратегии организаций TurboQuant меняет конкретные расчёты. Компании с требованиями к локализации данных, которые вынуждены запускать инференс на собственном железе, получают инструмент, позволяющий вдвое увеличить эффективную ёмкость существующих GPU или вдвое удлинить доступный контекст без покупки нового оборудования. Поскольку метод обнародован как открытая академическая работа с теоретическими доказательствами, а тесты проводились на открытых моделях, весь инструментарий доступен без привязки к управляемым сервисам Google. Это не фича в Google Cloud - это публичный алгоритм с открытой математикой.