Большинство технологий пространственного звука мыслят каналами. Пять динамиков слева и справа, сзади и спереди, сабвуфер внизу. Звукорежиссёр раскладывает звуковые объекты по этим каналам вручную, и результат намертво привязан к конкретной акустической конфигурации. Стоит убрать один динамик или добавить верхний ряд, и весь микс рассыпается. Higher-Order Ambisonics работает принципиально иначе: вместо каналов здесь записывается само звуковое поле, его математическое описание в пространстве. Декодер из этого описания сам вычисляет, что должен воспроизвести каждый конкретный динамик в конкретной расстановке.

От Герзона к высшим порядкам и полвека развития идеи

История Ambisonics начинается в начале 1970-х годов в британской компании National Research Development Corporation. Майкл Герзон и Питер Крейвен разработали теорию B-format, первого поколения амбисоников, опираясь на математический аппарат, который к тому моменту уже хорошо был известен в физике и квантовой механике: сферические гармоники. Герзон опубликовал основополагающую статью "Periphony: with-height sound reproduction" в 1973 году в Journal of the Audio Engineering Society. Это был первый-порядковый Ambisonics (FOA), использовавший четыре канала: W (омнидирективный), X (фигура восьмёрки по оси спереди-назад), Y (фигура восьмёрки слева-направо) и Z (фигура восьмёрки по вертикальной оси).

Идея высших порядков витала в научном сообществе с самого начала. Теоретически было ясно, что добавление компонентов более высоких порядков улучшает пространственное разрешение. Практически этим никто не занимался: вычислительные мощности 1970-х годов делали любую реализацию невозможной. Формализация теории HOA произошла в 1990-х годах, во многом благодаря работам Жерома Даниэля, опубликовавшего в 2001 году диссертацию с детальным описанием кодирования включая эффекты ближнего поля. Параллельно Дэвид Малхэм в 1999 году на конференции International Computer Music Conference в Пекине представил практические реализации HOA-систем. Всерьёз технология начала применяться с середины 2010-х годов, когда VR и 360-градусное видео создали массовый спрос на гибкое пространственное аудио.

Сферические гармоники как язык описания звукового поля

Чтобы понять HOA на техническом уровне, нужно сначала разобраться, что такое сферические гармоники и почему именно они используются для описания звукового поля.

Звуковое поле в точке пространства можно представить как суперпозицию плоских волн, приходящих со всех направлений сферы. Любую функцию, определённую на поверхности сферы, можно разложить в ряд по базисным функциям, которые называются сферическими гармониками. Это точный аналог разложения периодического сигнала в ряд Фурье по синусам и косинусам: там базис одномерный, здесь двумерный и определён на сфере.

Сферические гармоники Y_n^m описываются двумя параметрами: порядком n (order) и степенью m (degree), где m принимает значения от -n до +n. Для порядка n=0 существует одна функция: омнидирективная диаграмма направленности, которая одинакова во всех направлениях. Это канал W в B-format. Для порядка n=1 существуют три функции: три попарно ортогональных диаграммы направленности в форме восьмёрки по осям X, Y и Z. Для порядка n=2 существуют пять функций, для n=3 семь, и так далее. Общее число каналов при максимальном порядке N составляет (N+1)^2. Первый порядок даёт 4 канала, второй 9, третий 16, четвёртый 25, пятый 36.

Визуально сферические гармоники высших порядков выглядят как всё более сложные лепестковые паттерны на поверхности сферы: нулевой порядок это шар, первый порядок три перпендикулярных восьмёрки, второй и выше напоминают экзотические цветы с чередующимися лепестками разной полярности. Именно сложность этих паттернов обеспечивает высокое пространственное разрешение: чем больше лепестков, тем точнее можно локализовать направление звукового источника.

Как источник превращается в набор амбисоник-каналов при кодировании

Процесс кодирования HOA математически прост, хотя за этой простотой скрывается нетривиальная геометрия. Для точечного источника сигнала S, расположенного в направлении (azimuth θ, elevation φ), каждый HOA-канал получается умножением сигнала S на значение соответствующей сферической гармоники для этого направления:

B_n^m = Y_n^m(θ, φ) · S

То есть кодирование это просто взвешивание сигнала: каждый канал несёт копию исходного звука, умноженную на коэффициент, зависящий от направления и от конкретной сферической гармоники. Для нескольких источников все каналы просто суммируются: B_n^m = сумма по всем источникам i от Y_n^m(θ_i, φ_i) · S_i.

Это свойство линейности принципиально важно. Звуковое поле, закодированное в HOA, можно обрабатывать линейными операциями прямо в амбисоник-домене: поворачивать на произвольный угол, суммировать несколько сцен, применять реверберацию. Особенно ценен поворот: при изменении ориентации слушателя в VR-гарнитуре достаточно применить к HOA-сигналу матрицу вращения. Это вычислительно дешевле, чем повторный рендеринг всей бинауральной сцены с нуля, и именно поэтому HOA стал стандартом для пространственного аудио в VR.

Два ключевых параметра, от которых зависит совместимость HOA-контента: порядок нормализации и порядок каналов. По нормализации различают N3D (full three-D normalization, ортонормированные сферические гармоники), SN3D (Schmidt semi-normalized) и maxN. По порядку каналов различают ACN (Ambisonic Channel Number, где номер канала q = n²+n+m+1) и Furse-Malham (FuMa, унаследованный от B-format). Стандарт AmbiX, использующий ACN с SN3D нормализацией, стал де-факто стандартом для VR-приложений и поддерживается YouTube 360, Android и большинством современных плагинов.

Декодирование и путь от математики к динамикам и наушникам

Декодирование HOA это преобразование набора абстрактных математических каналов в конкретные сигналы для конкретных воспроизводящих устройств. Здесь начинается инженерия.

Для воспроизведения через динамики используется матричное декодирование. Декодер строит матрицу D размером "количество динамиков" на "количество HOA-каналов". Для каждого динамика, расположенного в направлении (θ_l, φ_l), строка матрицы содержит значения всех сферических гармоник для этого направления. Умножение HOA-вектора на матрицу D даёт сигналы для каждого динамика. Это так называемый basic decoder, обеспечивающий точное физическое воспроизведение звукового поля в малой области вблизи точки прослушивания (sweet spot).

Размер этой области точного воспроизведения растёт с порядком N, но убывает с частотой. На низких частотах первый порядок воспроизводит поле корректно в области радиусом несколько сантиметров. Третий порядок расширяет эту область до десятков сантиметров на средних частотах. На высоких частотах физически точное воспроизведение требует нереалистично высоких порядков, поэтому декодеры переключаются на психоакустический режим max-rE (maximum energy vector), оптимизирующий направление вектора энергии вместо точного воспроизведения волнового фронта. В практических реализациях декодеры меняют стратегию в зависимости от частоты: basic decoder на низких частотах, max-rE на высоких.

Для воспроизведения через наушники HOA декодируется в бинауральный сигнал через Head-Related Transfer Functions (HRTF). HRTF описывает, как звук от каждого направления трансформируется ушными раковинами, головой и плечами до того, как попасть в барабанные перепонки. Для каждого динамика виртуальной расстановки вычисляется свёртка сигнала с соответствующей HRTF. Результат это бинауральный микс, в котором мозг воспринимает источники как приходящие из пространства, а не из наушников. Эффективность бинауральной декодировки сильно зависит от качества HRTF: индивидуальные HRTF дают существенно лучший результат, чем усреднённые библиотеки, но их измерение требует специального оборудования.

Запись HOA и практические ограничения высоких порядков

Для записи HOA непосредственно из пространства существуют сферические микрофонные решётки. Самый известный из них Eigenmike em32 от mh acoustics с 32 капсюлями, равномерно распределёнными по поверхности сферы диаметром 8,4 см. После обработки сигналов с капсюлей через матрицу преобразования, называемую array processing или microphone array beamforming, получается HOA-сигнал порядка до четвёртого включительно. Теоретический предел порядка для сферической решётки с M капсюлями составляет N = floor(sqrt(M) - 1), хотя на практике высокочастотный шум капсюлей и конечный диаметр сферы ограничивают реально используемый порядок ещё сильнее.

Диаметр сферы создаёт принципиальное физическое ограничение: для частот, чья длина волны меньше диаметра сферы, точное воспроизведение пространственной информации невозможно. Для сферы 8,4 см это ограничение вступает в силу примерно с 4 кГц. Это означает, что даже четвёртый порядок HOA, записанный на Eigenmike, имеет высококачественное пространственное разрешение только до 4 кГц, а выше этой частоты пространственная точность деградирует.

Перечень практических параметров наглядно показывает цену высоких порядков. Первый порядок: 4 канала, угловое разрешение примерно 90 градусов, годится для простого пространственного аудио. Второй порядок: 9 каналов, разрешение около 60 градусов, достаточно для большинства VR-приложений. Третий порядок: 16 каналов, разрешение около 45 градусов, стандарт для профессионального VR и трансляций. Четвёртый порядок: 25 каналов, разрешение около 35 градусов, максимум практически используемых решёточных записей. Пятый порядок и выше: 36 и более каналов, используется преимущественно в синтетическом контенте и академических исследованиях.

HOA в транспортных форматах и реальное применение

Хранение и передача HOA решаются по-разному в зависимости от контекста. Для офлайн-хранения HOA записывается в обычные многоканальные аудиофайлы форматов WAV, AIFF или CAF с соблюдением ACN порядка каналов и прописанной в метаданных нормализацией.

Для стриминга и вещания ключевым стандартом является MPEG-H Audio, принятый как обязательный стандарт вещания ATSC 3.0 для цифрового ТВ США и разработанный в том числе с учётом требований HOA. Формат поддерживает HOA до шестого порядка (49 каналов) с компрессией, основанной на направленном кодировании: вместо сжатия каждого HOA-канала отдельно кодировщик анализирует звуковую сцену, идентифицирует доминирующие направленные компоненты и диффузный фон, и кодирует их раздельными методами. Это существенно повышает эффективность сжатия при сохранении пространственного качества.

YouTube поддерживает HOA первого порядка в формате AmbiX для 360-градусных видео. Google в своё время разработал для этого специализированный кодек Spatial Audio, основанный на разбиении HOA на направленные и диффузные компоненты с раздельным кодированием AAC. Практика показала, что третий порядок при разумных битрейтах даёт субъективно убедительный результат для большинства типов контента, от концертных записей до игровых сред. Выше третьего порядка прирост воспринимаемого качества уменьшается, а объём данных растёт квадратично.

HOA не отменяет объектно-ориентированные форматы вроде Dolby Atmos, а дополняет их. Атмос кодирует до 128 дискретных объектов с явными пространственными координатами, что идеально для студийного контента с ручным позиционированием. HOA кодирует звуковое поле целиком как физическую сущность, что незаменимо там, где источники не поддаются ручному позиционированию: живые записи в многолюдных пространствах, акустика концертных залов, диффузные атмосферы. Именно поэтому стандарт MPEG-H Audio поддерживает оба подхода одновременно, позволяя смешивать объектный и сценовый звук в единый поток.