Китайский суперкомпьютер LineShine на отечественных процессорах нацелился на мировое лидерство в HPC

Реклама: ООО "АЛИБАБА.КОМ (РУ)" ИНН: 7703380158 erid=2SDnjdb8wti

В Шэньчжэне без особой помпы прошла презентация, последствия которой будут разбирать ещё долго. Национальный суперкомпьютерный центр представил машину под именем Lingsheng, или в латинской транслитерации LineShine. Цифры в анонсе звучат внушительно: два эксафлопса вычислений в секунду, что эквивалентно двум квинтиллионам операций. Для сравнения, нынешний рекордсмен El Capitan из американской Ливерморской лаборатории выдаёт 1,8 эксафлопса. Если планы китайских инженеров реализуются хотя бы наполовину, расстановка сил в высокопроизводительных вычислениях может измениться впервые за последние годы.

Ставка на собственные процессоры стала ответом на американские экспортные ограничения

Главная особенность проекта не в абсолютной производительности, а в архитектурном выборе. LineShine построен исключительно на центральных процессорах без единого графического ускорителя. Решение идёт вразрез с мировым трендом. Все топовые суперкомпьютеры последних лет, от европейского JUPITER до американского El Capitan, опираются на GPU как на главный источник вычислительной мощи. Китайская команда сознательно отказалась от этого подхода.

Причина прозаична. Доступ к передовым графическим чипам Nvidia и AMD для китайских заказчиков давно ограничен экспортными правилами Вашингтона, и каждое следующее поколение санкций сужает коридор возможностей всё сильнее. В такой ситуации проще не бороться за импорт чужих технологий, а строить собственный технологический стек снизу доверху. Заместитель директора центра Хуан Сяохуэй на конференции 24 апреля заявил о достижении полной независимости от внешних поставщиков, от железа до системного программного обеспечения. Звучит как политическое заявление, но за ним стоит реальная инженерная работа последних нескольких лет.

Архитектурный выбор имеет и техническое обоснование. Процессоры лучше графических ускорителей справляются с задачами, где требуется высокая пропускная способность памяти и сложная логика ветвлений. Молекулярная динамика, гидродинамические расчёты, биоинформатика, метеорология - всё это области, где CPU-ориентированные системы традиционно показывают сильные результаты. На массовом тренинге больших языковых моделей такая машина уступит GPU-кластеру, но в строгом научном моделировании может оказаться предпочтительнее.

Технические детали поражают масштабом инфраструктуры и инженерными решениями

Полноценная конфигурация LineShine рассчитана на 20 480 вычислительных узлов, объединённых в 92 шкафа с процессорами. Внутри каждого узла стоят два чипа архитектуры ARMv9 под именем LX2, разработанных в Китае. Каждый такой процессор содержит две вычислительные подложки на 304 ядра суммарно и восемь стеков памяти HBM с агрегированной пропускной способностью четыре терабайта в секунду на чип. По заявлениям разработчиков, один LX2 выдаёт до 60,3 терафлопса в режиме двойной точности FP64 и вдвое больше в FP32.

Общее число процессоров достигает 47 тысяч штук. Сетевая инфраструктура построена на собственной разработке LingQi, использующей двухплоскостную многорельсовую топологию fat-tree с пропускной способностью 1,6 терабита в секунду на узел. Хранилище данных включает 67 шкафов с жидкостным охлаждением, 428 узлов хранения и совокупную полосу 10 терабайт в секунду. Совокупная ёмкость дисковой подсистемы заявлена на уровне 650 петабайт.

Жидкостное охлаждение здесь стоит выделить отдельно. Длина вторичных трубопроводов в системе превышает 3,2 километра, общая масса коммуникаций составляет около 244 тонн. Без такой системы тепло, выделяемое десятками тысяч процессоров, попросту невозможно отвести. Современные эксафлопсные машины упираются в так называемую десятимегаваттную стену, и инженерные решения по охлаждению давно стали не менее критичной частью проекта, чем сами вычислительные модули.

Развёртывание идёт поэтапно и основано пока на проверенной технике Huawei Kunpeng

К амбициозным заявлениям стоит относиться с осторожностью. На сегодняшний день полноценная конфигурация на чипах LX2 ещё не построена. Первый этап проекта тестируется на сотне серверов с процессорами Huawei Kunpeng, дающих в сумме 12 800 вычислительных ядер. Это серьёзная установка, но до двух эксафлопсов от такой системы дистанция огромная. Полное развёртывание целевой архитектуры с собственными чипами LX2 относят к перспективе, по разным оценкам аналитиков, ближе к 2029 или 2030 году.

Разработчики называют свой подход двухфазным. Первая фаза доказывает работоспособность программного стека и инженерной обвязки на уже доступных процессорах. Вторая принесёт переход на новые чипы и масштабирование до целевых показателей. Логика рабочая, и она напоминает, как в своё время выводили в эксплуатацию американские системы Frontier и El Capitan, тоже строившиеся не за один год.

Ещё одна интрига связана с отсутствием результатов в международном рейтинге Top500. Китай перестал подавать данные на бенчмарк Linpack ещё в 2019 году, после введения американских ограничений. Это значит, что пока публичных независимых замеров производительности LineShine нет, и все цифры исходят непосредственно от разработчика. Заявленный результат впечатляет, но без сторонней верификации он остаётся проектным ориентиром, а не подтверждённым достижением.

Применение системы выходит далеко за рамки тренировки нейросетей

Список целевых задач для LineShine получился внушительным:

молекулярная динамика и моделирование новых материалов;
вычислительная гидродинамика для аэрокосмической отрасли;
метеорология и климатические прогнозы повышенной точности;
биоинформатика и фармацевтические исследования;
дистанционное зондирование Земли и обработка спутниковых данных;
разведка нефтяных и газовых месторождений;
электромагнитное моделирование сложных систем;
обучение крупных языковых моделей китайской разработки.

Особенно показателен последний пункт. На LineShine планируют обучать модель Qwen и другие отечественные нейросети. Поддержка смешанной точности FP64, FP32, FP16 и INT8 через ускорители SME упрощает работу с разнообразными ИИ-задачами. Это попытка построить универсальную платформу, способную закрывать как классические научные расчёты, так и современный машинный интеллект на одном железе.

В архитектуру встроены отдельные движки SDMA для перемещения данных между обычной DDR-памятью и быстрой HBM-памятью. Такое разделение позволяет минимизировать простои процессорных ядер в ожидании данных и поднять реальную утилизацию оборудования. Производительность дисковой подсистемы при этом остаётся одним из самых критичных параметров для научных приложений, где модели и промежуточные результаты весят сотни терабайт.

Геополитический подтекст усиливает значение этого технологического шага

LineShine стоит рассматривать не просто как очередную большую машину, а как звено более широкой стратегии вычислительного суверенитета. Идея проста: страна должна уметь самостоятельно создавать и эксплуатировать передовую вычислительную инфраструктуру, не зависящую от поставщиков из других юрисдикций. После каждого нового витка экспортных ограничений значимость такой автономии растёт.

Для китайских компаний и научных институтов выбор становится всё более очевидным. Доступ к импортным передовым ускорителям нестабилен, цены растут, поставки задерживаются. Альтернатива в виде отечественного железа, пусть и уступающего по чистой производительности на ватт, оказывается надёжнее в долгой перспективе. Государство активно поддерживает отрасль грантами и инфраструктурными контрактами. Появление таких флагманских проектов служит сигналом и для частного сектора, и для университетских лабораторий.

Любопытен побочный эффект для глобального рынка. Если CPU-ориентированный подход покажет конкурентоспособность хотя бы в нескольких прикладных нишах, это может изменить инженерное мышление и в других регионах. Доминирование GPU в последние годы казалось бесспорным, но история суперкомпьютинга знает немало случаев, когда мейнстрим уступал нишевым решениям после того, как те доказывали свою экономическую эффективность.

Реальная оценка ситуации требует здорового скептицизма и времени для проверки заявлений

Важно сохранять трезвый взгляд. Заявленные два эксафлопса остаются проектной целью, а не подтверждённой практикой. Полная конфигурация ещё не собрана. Бенчмарки Linpack или их аналоги независимыми лабораториями не проводились. Сравнения с El Capitan основаны на цифрах разной природы: американская система реально работает с 2024 года и регулярно отчитывается перед сообществом, китайская существует пока в виде масштабного плана и пилотного фрагмента.

При этом сам факт того, что проект такого масштаба стартовал и движется вперёд, заслуживает внимания. Китайская электронная промышленность за последние пять лет совершила то, что многие наблюдатели считали невозможным в условиях санкций. Появление собственного чипа LX2 на архитектуре ARMv9, собственной сетевой технологии LingQi, собственного программного стека для эксафлопсного класса машин - всё это технологические достижения сами по себе, независимо от того, попадёт ли LineShine в итоге на первую строчку Top500.

Ближайшие два-три года покажут, насколько реалистичны заявленные цифры и графики. Если хотя бы половина обещаний сбудется, мировой ландшафт высокопроизводительных вычислений получит нового сильного игрока с принципиально иной архитектурной философией. А заодно станет понятнее, что экспортные ограничения не остановили технологическое развитие за пределами западного блока, а скорее ускорили построение параллельной экосистемы. Конкуренция здесь только начинается, и LineShine выглядит первой громкой заявкой в новой главе этой долгой истории.