NVIDIA и Google объединили усилия для удешевления ИИ-инференса в десять раз и представили инфраструктурную дорожную карту, которая меняет правила игры для корпоративного сектора

На конференции Google Cloud Next в Лас-Вегасе двое технологических гигантов объявили о глубоком расширении партнёрства, которое тянется уже больше десяти лет. Совместная дорожная карта аппаратного обеспечения, представленная разработчиками, нацелена на одно из самых болезненных мест современной отрасли. Стоимость инференса, то есть запуска уже обученных моделей в продуктивной среде, давно превратилась в финансовый барьер для бизнеса. Теперь этот барьер обещают сломать сразу на порядок.

Ключевая фраза, которая прозвучала со сцены, звучит почти невероятно. До десяти раз меньше затрат на токен и до десяти раз больше пропускной способности на каждый мегаватт энергии. Цифры выглядят маркетинговыми, но за ними стоит реальная инженерная работа над совместным проектированием аппаратной и программной части. И именно этот подход, а не просто ещё один поколенческий апгрейд чипов, превращает анонс в значимое событие для всего рынка корпоративного ИИ.

Архитектура A5X на базе Vera Rubin NVL72 решает главную инженерную проблему масштабирования

Центральным анонсом стала новая bare-metal инстанция A5X, построенная на стоечных системах NVIDIA Vera Rubin NVL72. Название Vera Rubin отсылает к американскому астроному, открывшему доказательства существования тёмной материи. Подобно тому, как её работы перевернули представления о структуре вселенной, новая платформа меняет привычные рамки расчёта стоимости вычислений в искусственном интеллекте.

Технические характеристики впечатляют масштабом. Один кластер на одной площадке поддерживает до 80 тысяч графических процессоров Rubin. Распределённая мульти-сайтовая конфигурация расширяется почти до миллиона ускорителей, точнее, до 960 тысяч. Чтобы обеспечить такую координацию, инженеры решили проблему пропускной способности через комбинацию сетевых карт NVIDIA ConnectX-9 SuperNIC и собственной сетевой технологии Google под названием Virgo.

Без этой связки вся идея распадалась бы на куски. Когда несколько сотен тысяч процессоров обрабатывают единый поток данных, любая задержка в синхронизации превращается в узкое место. Именно поэтому акцент сделан не на самих чипах, а на том, как они общаются между собой. Здесь и проявляется суть совместного проектирования: аппаратная часть с самого начала разрабатывалась под конкретные программные паттерны, а программная часть оптимизировалась под физические ограничения железа.

Десятикратное снижение стоимости токена меняет экономическое уравнение для корпоративных проектов

Бизнес-логика инференса до недавнего времени напоминала качели, которые редко находятся в равновесии. Обучение моделей требует огромных разовых вложений, но происходит относительно редко. Инференс работает постоянно, и его стоимость накапливается с каждым запросом пользователя. Аналитики McKinsey предсказывают, что расходы на инференс перегонят траты на обучение в корпоративных бюджетах уже к 2027 году.

Снижение стоимости одного токена в десять раз переписывает финансовую модель множества проектов, которые раньше упирались в бюджетные ограничения. Виртуальные ассистенты, которые отвечают на запросы клиентов в реальном времени. Системы рекомендаций, обрабатывающие миллионы вариантов в секунду. Аналитические платформы, которые строят прогнозы на лету. Все эти сценарии раньше тормозились простой математикой: при текущих ценах на инференс они либо требовали урезания функций, либо вообще откладывались.

Когда хардвер и софт оптимизируются раздельно, бизнес платит дважды. Один раз за избыточные мощности, второй раз за недополученную производительность. Совместное проектирование разрывает этот порочный круг. И ровно тот же эффект работает с энергопотреблением, что в эпоху растущих счетов за электричество для дата-центров становится не менее важным фактором, чем цена за токен.

Раздельная стратегия Google по обработке обучения и инференса дополняет совместный план с NVIDIA

Параллельно с анонсом A5X Google представила собственное поколение тензорных процессоров TPU восьмого поколения. Решение разделить линейку на две специализированные модели стало стратегическим сдвигом для всей отрасли. TPU 8t, спроектированный совместно с Broadcom, нацелен на крупномасштабное обучение и собирается в суперподы до 9600 чипов с двумя петабайтами общей памяти HBM. TPU 8i от MediaTek заточен под рассуждающие модели и обслуживание запросов в продуктиве.

Цифры по новым чипам тоже звучат громко. По заявлениям Google, TPU 8t даёт улучшение соотношения цены и производительности при обучении в 2,8 раза относительно предыдущего Ironwood. TPU 8i обещает до 80% улучшения экономики инференса. Архитектурные новшества включают утроенную статическую память на чипе до 384 мегабайт и удвоенную пропускную способность межчиповой связи до 19,2 терабит в секунду.

Любопытен сам факт расхождения стратегий трёх главных игроков рынка. AWS пошёл по пути конвергенции и объединяет тренировку с инференсом в одном чипе Trainium3. NVIDIA масштабирует производительность внутри стойки и расширяется до больших кластеров. Google разделил функции между двумя специализированными процессорами. Производственные данные следующих лет покажут, какая из этих философий лучше подходит для агентных нагрузок, которые сейчас определяют будущее отрасли.

Реальные клиенты уже работают на новой инфраструктуре, и спектр применений раскрывает её универсальность

История с A5X и обновлённой платформой Hypercomputer была бы пустой без живых примеров использования. Здесь Google собрал внушительный список клиентов, причём из совершенно разных секторов экономики.

OpenAI запускает на Google Cloud свои самые требовательные нагрузки инференса, включая работу ChatGPT. Используются системы NVIDIA GB300 в составе виртуальных машин A4X Max и GB200 NVL72 в A4X. Это любопытный поворот сюжета, ведь ещё недавно OpenAI и Google воспринимались как прямые конкуренты на рынке генеративного ИИ. Стартап Thinking Machines Lab, основанный бывшими сотрудниками OpenAI, масштабирует свой Tinker API на тех же A4X Max для ускорения обучения собственных моделей.

Сценарии применения охватывают неожиданно широкий круг задач:

Snap перевёл свои конвейеры данных на ускоренный графическими процессорами Spark, чтобы сократить расходы на масштабное A/B-тестирование;
Schrödinger использует ускоренные вычисления NVIDIA для сжатия фармацевтических симуляций, которые раньше тянулись неделями, до часовых интервалов;
General Motors прогоняет миллиарды миль фотореалистичной симуляции через свои конвейеры машинного обучения для тестирования автономного вождения;
CodeRabbit и Factory строят агенты для автономной разработки программного обеспечения на базе моделей семейства NVIDIA Nemotron;
Aible, Mantis AI, Photoroom и Baseten создают корпоративные решения для аналитики данных, видеоаналитики, генеративных изображений и управляемого инференса.

Совместное сообщество разработчиков NVIDIA и Google Cloud перевалило за 90 тысяч человек чуть больше чем за год. Цифра показательная. Она означает, что речь идёт не о пилотных экспериментах, а о повседневной работе тысяч инженерных команд по всему миру.

Дробные графические процессоры и предсказуемая маршрутизация задач делают платформу доступной для среднего бизнеса

Грандиозные кластеры на миллион чипов впечатляют, но мало какая компания нуждается в подобных масштабах. Здесь в игру вступает противоположный по духу анонс. Дробные виртуальные машины G4 на технологии NVIDIA vGPU позволяют арендовать половину, четверть или даже одну восьмую часть графического процессора. Платформа RTX PRO 6000 Blackwell Server Edition впервые в индустрии получила такую гранулярную нарезку.

Идея проста до изящества. Не каждой задаче нужен полный ускоритель. Удалённый рабочий стол, простой видеокодек или офисное приложение с лёгкими ИИ-функциями прекрасно живут на одной восьмой графического процессора. Среднеуровневые креативные сценарии и видеотранскодинг укладываются в четверть. Половина GPU подходит для инференса больших языковых моделей, симуляции робототехнических сенсоров и высокодетализированного рендеринга в трёх измерениях.

Управляющий слой получил серьёзную модернизацию через GKE Inference Gateway. Новая система маршрутизации использует машинное обучение для предсказания загруженности и направляет запросы туда, где они обработаются быстрее всего. Замена привычной эвристической балансировки позволила сократить задержку до первого токена более чем на 70% без какой-либо ручной настройки. Для приложений вроде голосовых ассистентов или интерактивных торговых ботов такая разница между мгновенным и задержанным ответом часто определяет коммерческий успех всего продукта.

Что новая инфраструктурная парадигма означает для корпоративного сектора в более широком смысле

Происходящее на Google Cloud Next выходит за рамки обычного технологического события. Это сигнал об изменении самого принципа, по которому строится индустрия ИИ-сервисов. Раньше каждый крупный поставщик старался запереть клиентов в собственной экосистеме. Сейчас же видна обратная тенденция. Открытые фреймворки вроде Dynamo интегрируются с Google Kubernetes Engine. Проект lm-d принят в инкубатор CNCF, причём в роли основателей выступают Google, Red Hat, IBM Research, CoreWeave и NVIDIA одновременно.

Корпоративные заказчики получают редкую возможность планировать свою ИИ-стратегию на годы вперёд с разумной долей определённости. Преемственность архитектур от Blackwell к Rubin даёт гарантию, что код, написанный сегодня, будет работать на железе следующего поколения. Конфиденциальные вычисления на Blackwell обеспечивают регулируемые отрасли, такие как здравоохранение и финансы, инструментом для запуска моделей Gemini в защищённом окружении, где даже инфраструктурный оператор не может прочитать данные.

Сценарии цифровых двойников промышленных производств, агентов автономной разработки кода, симуляции в фармацевтике и автомобильной индустрии раньше упирались либо в производительность, либо в стоимость. Десятикратный сдвиг по обоим параметрам открывает дверь к их массовому внедрению. Не через год и не через три, а уже сейчас, поскольку первые клиенты используют инфраструктуру в боевом режиме.

Поучительный нюанс касается партнёрства как такового. NVIDIA получила от Google звание партнёра года сразу в двух категориях. Это редкая ситуация, когда один из главных производителей чипов признаётся ключевым союзником компанией, которая параллельно разрабатывает собственную линейку TPU. Подобное сосуществование конкуренции и сотрудничества в одном технологическом стеке становится новой нормой. Похоже, эпоха, когда выбор поставщика инфраструктуры был вопросом веры в одну экосистему, постепенно уходит в прошлое.

Финальный вопрос остаётся открытым. Хватит ли заявленного десятикратного снижения стоимости, чтобы превратить корпоративный ИИ из дорогой игрушки технологических гигантов в обыденный рабочий инструмент для миллионов средних компаний? История говорит, что подобные ценовые сдвиги обычно запускают волну инноваций, о которых сами создатели инфраструктуры даже не подозревают. Следующие месяцы покажут, подтвердится ли эта закономерность снова.

👉 Канал сайта на сервисе Дзен