Microsoft Spatial Sound и HoloLens - как голограммы научились занимать место в реальном мире

Глаз можно обмануть относительно легко. Нужный угол зрения, правильное освещение, грамотно просчитанная перспектива - и мозг готов принять нарисованный объект за настоящий. Но слух работает иначе. Он жёстче, настойчивее и куда менее терпим к обману. Голограмма, которую видишь перед собой и которая звучит "из головы" или вовсе ниоткуда, разрушает иллюзию мгновенно, как трещина на фарфоре. Именно поэтому Microsoft, создавая HoloLens, занялась пространственным звуком так же серьёзно, как визуальным рендерингом. Результатом стала платформа Microsoft Spatial Sound - решение, которое пошло значительно дальше нужд одной гарнитуры и превратилось в фундамент для аудио смешанной реальности на всей экосистеме Windows, Xbox и HoloLens.

Директор по аудиоинновациям Microsoft Мэтью Ли Джонстон сформулировал суть подхода так: "Пространственный звук укореняет голограммы в твоём мире. Чем реалистичнее звучит голограмма в твоей среде, тем убедительнее мозг воспринимает её как реальный объект в этой среде." Это не поэтическая метафора - это техническое задание, которое определило всю архитектуру звуковой системы HoloLens с самого начала.

Физика слуха и почему стерео здесь не работает

Прежде чем разбираться в том, что именно Microsoft построила, стоит понять, почему обычный стереозвук в контексте смешанной реальности бессилен. Человеческий слух - это система трёхмерной локализации, отшлифованная миллионами лет эволюции. Когда что-то падает за спиной, голова поворачивается ещё до того, как сознание успевает обработать ситуацию. Когда кто-то зовёт сверху лестницы, мы точно знаем, откуда доносится голос, не видя источника звука.

HRTF впервые применялись ещё в 1950-х годах в бинауральных записях: звук захватывался через два микрофона у ушей манекена, а прослушивание через наушники создавало иллюзию акустического присутствия на записанном событии. Технические проблемы ранних применений включали размытый акустический образ, если голова слушателя не совпадала с головой манекена, а движения головы смещали всю звуковую сцену, чего не происходит при прослушивании реального звука.

Вот почему простое стерео никогда не создаст убедительного ощущения присутствия в смешанной реальности. Два канала, Left и Right, - это плоскость. Реальный мир трёхмерен. В приложении смешанной реальности пользователю может понадобиться смотреть вверх, вниз, по сторонам или за спину, чтобы найти что-то происходящее. Пространственный звук связывает голограммы с миром смешанной реальности и сообщает информацию о среде и состоянии объектов. Без этой связи голограмма, сколько бы точно она ни была визуально позиционирована, ощущается как наклейка поверх реальности, а не как её часть.

Аппаратная архитектура HoloLens и место звука в ней

Вдоль нижних краёв боковых частей HoloLens, у ушей пользователя, расположена пара небольших трёхмерных аудиодинамиков. Они не перекрывают внешние звуки, позволяя слышать виртуальные звуки вместе с окружением. Используя функции передачи, связанные с головой (HRTF), HoloLens генерирует бинауральное аудио, которое может имитировать пространственные эффекты, то есть пользователь виртуально воспринимает и локализует звук так, как будто он исходит из конкретной виртуальной точки в пространстве.

Принципиальное решение использовать открытые динамики, а не наушники, было намеренным. Наушники физически блокируют слуховой контакт с реальной средой. Для гарнитуры дополненной реальности, которая по определению должна совмещать реальное и виртуальное, это неприемлемо. Открытые динамики у ушей сохраняют естественный слух пользователя, добавляя к нему виртуальный пространственный слой.

В состав HoloLens помимо Intel Cherry Trail SoC, содержащего CPU и GPU, входит кастомный Microsoft Holographic Processing Unit (HPU) - специализированный сопроцессор, использующий 28 DSP-ядер Tensilica для обработки данных сенсоров, а также для задач пространственного картографирования, распознавания жестов и голосового управления. Звуковая обработка интегрирована в эту же архитектуру: на HoloLens 2 Microsoft Spatial Sound включён по умолчанию и использует аппаратную разгрузку DSP, разработанную специально для Windows Sonic for Headphones. Это означает, что вычисления пространственного позиционирования звука не нагружают основной процессор - они выполняются на выделенном аппаратном блоке, что критически важно для устройства, балансирующего между производительностью и временем автономной работы.

HRTF, межзрачковое расстояние и уникальность каждого слушателя

HRTF управляет уровнями и фазовыми различиями между ушами по всему частотному спектру. Они основаны на физических моделях и измерениях человеческой головы, туловища и формы ушей. Мозг реагирует на эти различия, воспринимая направление звука. Каждый человек имеет уникальную форму ушей, размер головы и положение ушей, поэтому наилучшие HRTF адаптированы под конкретного человека.

Это фундаментальное наблюдение породило одно из наиболее элегантных технических решений в HoloLens 2. Гарнитура уже знает межзрачковое расстояние (IPD) пользователя - оно калибруется для точного совмещения голографических дисплеев с глазами. Для повышения точности пространственного позиционирования HoloLens использует межзрачковое расстояние пользователя из дисплеев гарнитуры, чтобы скорректировать HRTF под размер головы. Это косвенная, но вполне рабочая аппроксимация: IPD коррелирует с расстоянием между ушами, которое является одним из ключевых параметров при расчёте HRTF. Система не делает полное персональное измерение, как у акустических манекенов в научных лабораториях, однако использует реальные данные о конкретном теле пользователя вместо усреднённой модели.

Низкая задержка отслеживания головы в гарнитурах смешанной реальности, включая HoloLens, поддерживает высококачественное позиционирование на основе HRTF. Когда пользователь поворачивает голову, пространственная звуковая сцена обновляется синхронно с визуальным рендерингом. Голограмма, закреплённая в точке пространства, продолжает звучать из той же точки пространства независимо от того, куда смотрит пользователь. Именно эта согласованность визуального и акустического сигнала и убеждает мозг в том, что объект реален.

Архитектура платформы и то, как звуковые объекты живут в трёхмерном мире

Microsoft Spatial Sound - это решение на уровне платформы для поддержки пространственного звука на Xbox, Windows и HoloLens 2, обеспечивающее как объёмные звуковые подсказки вокруг слушателя, так и по высоте - выше или ниже него. API пространственного звука позволяют разработчикам создавать звуковые объекты, излучающие звук из позиций в трёхмерном пространстве.

Техническая реализация строится вокруг интерфейса ISpatialAudioClient. ISpatialAudioClient поддерживает статические звуковые объекты, формирующие канальную основу до 8.1.4.4 каналов: 8 каналов вокруг слушателя (левый, правый, центральный, боковой левый, боковой правый, задний левый, задний правый и задний центральный), 1 канал низких частот, 4 канала выше слушателя и 4 канала ниже слушателя. Помимо этого, платформа поддерживает динамические звуковые объекты, которые могут быть произвольно расположены в трёхмерном пространстве и менять свою позицию в реальном времени.

Разница между статическими и динамическими объектами принципиальна для разработчиков приложений. Статические объекты привязаны к одному из предопределённых каналов - это эффективный способ работать с готовым многоканальным контентом. Динамические объекты позволяют звуку "следить" за движущейся голограммой: если виртуальный персонаж идёт через комнату, его шаги перемещаются в акустическом пространстве синхронно с его визуальной моделью. Именно это делает взаимодействие с голограммами убедительным на уровне рефлексов, а не только на уровне сознательного восприятия.

Разработчики могут взаимодействовать с API тремя способами: через 7.1.4 панорамирование с добавлением каналов высоты, через одновременное использование стандартного WASAPI-эндпоинта и ISpatialAudioClient с разделением контента, или через динамические звуковые объекты для звуков с требованием точного позиционирования. Каждый подход предполагает свои компромиссы между детальностью управления и сложностью реализации.

Акустика как второе измерение пространственного звука

Позиционирование - только половина задачи. Пространственный звук - это не только направление. Другие измерения включают окклюзию, препятствие, реверберацию, порталирование и моделирование источника. В совокупности эти измерения называются акустикой. Без акустики пространственные звуки лишены ощущаемого расстояния.

Окклюзия - это поглощение звука объектами между источником и слушателем. Если голограмма находится за виртуальной стеной, звук из неё должен звучать приглушённее и с изменённым частотным балансом: высокие частоты поглощаются препятствием сильнее, чем низкие. В HoloLens это реализовано через компонент Audio Occluder: разработчик задаёт частоту среза фильтра, которая применяется к источнику звука, когда между ним и слушателем появляется геометрия сцены.

Реверберация добавляет ещё один слой достоверности - акустическую характеристику помещения. Акустические системы, такие как Project Acoustics, обеспечивают более богатую акустическую обработку: Project Acoustics может моделировать влияние стен, дверей и другой геометрии сцены на звук. Это означает, что виртуальный звук в маленькой комнате ведёт себя иначе, чем в большом зале: отражения приходят быстрее, время реверберации короче, звук ощущается "зажатым". Когда пользователь перемещается из одного виртуального помещения в другое, акустическая картина меняется соответственно.

Без этих акустических слоёв даже правильно позиционированный звук кажется висящим в вакууме. Мозг привык воспринимать звук вместе с его акустическим контекстом - тем, как он взаимодействует с конкретным пространством. Лишите его этого контекста, и иллюзия треснет ровно в том месте, где должна быть самой крепкой.

Windows Sonic, Dolby Atmos и экосистема за пределами HoloLens

Microsoft Spatial Sound никогда не задумывался как решение только для HoloLens. Платформа полностью поддерживает кодирование Dolby Atmos в реальном времени для HDMI и стереофонических наушников, DTS:X для наушников, а также Windows Sonic для стереофонических наушников. Пространственный звук с Microsoft Spatial Sound также поддерживает телевизоры, домашние кинотеатры и звуковые панели с поддержкой Dolby Atmos.

Windows Sonic for Headphones - это бесплатный бинауральный рендерер, встроенный в Windows 10 и более поздние версии. Он доступен любому пользователю без дополнительной оплаты: достаточно кликнуть правой кнопкой на иконке громкости и выбрать пространственный звук. Для игр, поддерживающих Windows Sonic, это включает виртуализацию многоканального звука через обычные стереонаушники.

Исследовательская группа по аудио и акустике Microsoft работала в тесном сотрудничестве с инженерными командами, чтобы перевести научные проекты пространственного звука в код реальных продуктов: поддержка виртуального объёмного звука в Windows 10 и Xbox One, трёхмерный аудиодвижок в Microsoft Soundscape и, конечно, движок пространственного звука в HoloLens. Эта общность происхождения означает, что приложения, написанные для Windows с использованием ISpatialAudioClient API, получают пространственный звук и на Xbox, и на HoloLens, адаптируясь к возможностям каждой платформы без переписывания аудиологики.

Практика создания звука для смешанной реальности и реальные приложения

Приложение HoloTour - виртуальный туристический опыт для HoloLens - наглядно показывает, насколько сложной и тонкой может быть работа со Spatial Sound в реальном проекте. Для HoloTour разработчики создавали 360-градусную акустическую среду, синхронизированную с видео, чтобы передать характерные звуки конкретных мест. Эмиттеры звука привязаны к мировым координатам, то есть звук меняется, когда пользователи поворачивают голову - этот метод эффективно моделирует ощущение стояния в реальной точке пространства.

В некоторых сценах использовался другой подход: зацикленная стереофоническая атмосфера с пространственными эмиттерами, расставленными по сцене, воспроизводящими одиночные звуки со случайной громкостью, высотой тона и частотой срабатывания. Этот метод создаёт атмосферу с усиленным ощущением направленности. Звуки фонтана в одном квадранте панорамы, голуби в другом, отдалённые разговоры в третьем - каждый элемент существует в своей точке пространства, а вместе они ткут акустическую ткань места, неотличимую от воспоминания о реальной поездке.

Принципиальное ограничение, о котором разработчики говорят открыто: пространственный звук требует моно-источников. Стереофонический файл с пространственной информацией внутри самой записи плохо совместим с HRTF-обработкой - два канала уже несут собственную "инструкцию" для ушей, и наложение поверх неё HRTF создаёт конфликт. Рекомендованная архитектура для новых приложений предполагает Microsoft Spatializer с многоисточниковой архитектурой пониженной стоимости, выгруженной на аппаратный ускоритель HoloLens 2.

Звук в смешанной реальности устроен так же, как хорошо спроектированное городское пространство: его не замечаешь, когда всё работает правильно. Замечаешь только его отсутствие - или его ошибки. Microsoft Spatial Sound строит инфраструктуру, которую не видно, но без которой голограммы остаются просто красивыми картинками, приклеенными к реальности, а не её законными жителями.