Долгое время мультимодальные модели работали по одному и тому же принципу: берём сильную языковую основу, прикручиваем к ней отдельный аудиокодировщик, отдельный визуальный энкодер, соединяем адаптерами - и называем это "единой" системой. Каждый новый модальный блок добавлял задержку, плодил точки отказа и никогда не давал настоящей связности восприятия. Голос жил отдельно от изображения, видео обрабатывалось в стороне от текста.

30 марта 2026 года команда Alibaba Qwen выпустила Qwen3.5-Omni, и эта модель устроена иначе с самого первого слоя.

Thinker-Talker и нативная архитектура которую не собирали из частей

В основе Qwen3.5-Omni лежит архитектура Thinker-Talker. Thinker отвечает за восприятие и рассуждение - он получает текст, изображения, аудио и видео и обрабатывает их в едином латентном пространстве. Talker преобразует результат рассуждения в потоковую речь в реальном времени, причём первые аудиобайты поступают ещё до того, как модель закончила генерацию полного ответа.

Ключевое отличие от предшественников - нативный аудиотрансформер. Вместо того чтобы опираться на внешние модели распознавания речи, Qwen3.5-Omni обучила собственный Audio Transformer на более чем 100 миллионах часов аудиовизуальных данных. Это не количественная разница - это качественная: модель понимает темп, акцент, фоновый шум и смену говорящих как неотъемлемые части контекста, а не как помехи, которые нужно отфильтровать перед "настоящей" обработкой.

Оба компонента - и Thinker, и Talker - построены на Hybrid-Attention Mixture of Experts. MoE позволяет активировать лишь часть параметров на каждый токен, что делает модель одновременно мощной и практичной: полный параметрический объём огромен, но активный вычислительный след в разы скромнее.

Что значит 256 тысяч токенов контекста на практике

Контекстное окно в 256 тысяч токенов - не просто маркетинговая цифра, за ней стоит конкретное операционное измерение. В пересчёте на реальные данные это больше 10 часов непрерывного аудио или примерно 400 секунд видео в разрешении 720p с синхронизированным звуком.

Многие пробовали загрузить в мультимодальную модель длинный видеозвонок и получали в ответ фрагментированный пересказ с потерями. Qwen3.5-Omni держит всё это в едином контексте. Для транскрипции совещаний, анализа многочасовых записей или генерации субтитров с привязкой к спикерам - это принципиальная разница между "работает" и "не работает".

Именно здесь раскрывается Script-Level Captioning - функция, которая превращает видео не просто в текст, а в полноценный сценарий: с таймкодами, разделением реплик по спикерам и структурой, пригодной для прямого редактирования или дальнейшей обработки.

Audio-Visual Vibe Coding и то как голос становится инструментом программирования

Из всего заявленного в релизе наибольшее внимание привлек Audio-Visual Vibe Coding. Идея формально проста: разработчик смотрит в камеру, описывает голосом что нужно создать, и модель генерирует работающий код - сайт, игровую механику, интерфейс.

Это не конвейер "речь в текст, текст в код". Здесь нет промежуточного звена в виде транскрипции, которую потом обрабатывает отдельный кодировщик. Модель одновременно воспринимает голосовую интонацию, видеоряд с экрана, контекст разговора и программистский замысел - и связывает их в единое намерение. Такая способность возникает именно из нативной мультимодальной архитектуры и недостижима для систем, собранных из независимых компонентов.

Насколько это работает в реальных задачах за пределами демо - вопрос, который разработчики ещё только начинают проверять. Но сам принцип взаимодействия "говорю и показываю - получаю код" описывает интерфейс, к которому не нужно долго объяснять зачем.

Бенчмарки Qwen3.5-Omni-Plus против Gemini 3.1 Pro по ключевым категориям

Флагманский вариант Plus достиг 215 SOTA-результатов по аудио и аудиовизуальным подзадачам. По заявленным данным, модель превосходит Gemini 3.1 Pro в распознавании речи, понимании аудио, рассуждении и переводе, при этом сохраняя паритет по общему пониманию аудиовизуального контента.

Конкретные цифры по ключевым бенчмаркам выглядят так:

  • Распознавание речи WenetSpeech (чем ниже, тем лучше): Qwen3.5-Omni-Plus 4.30/5.84 против 11.5/14.2 у Gemini 3.1 Pro.
  • Понимание аудио VoiceBench: 93.1 против 88.9.
  • Понимание видео MVBench: 79.0 против 74.1.
  • Многоязычное понимание MMLU-Redux: 94.2 против 95.9 - здесь практический паритет.
  • Многоязычная стабильность голоса: по заявлению Alibaba, Plus обходит ElevenLabs и GPT-Audio на 20 языках.

По распознаванию речи разрыв особенно показателен. WenetSpeech - это именно тот тип сложного, реалистичного аудио, на котором модели часто ломаются: много говорящих, фоновый шум, разговорная речь вместо студийной записи. Двукратное преимущество в этой категории переводится в реальное качество работы, а не просто в строку в таблице.

Три варианта модели и что за ними стоит с точки зрения инфраструктуры

Qwen3.5-Omni выходит в трёх вариантах: Plus, Flash и Light. Plus - это максимальная точность, лучший выбор там, где цена ошибки высока. Flash - сбалансированный вариант для продакшен API, где нужен разумный компромисс между качеством и задержкой. Light ориентирован на мобильные и edge-устройства с жёсткими ограничениями по латентности.

Все три разделяют одинаковое контекстное окно в 256 тысяч токенов. Для развёртывания Plus на собственном оборудовании потребуется не менее 40 ГБ видеопамяти - порог ощутимый, хотя и не запредельный для современных серверных GPU. Light значительно доступнее.

Поддержка языков охватывает 113 языков и диалектов в ASR (распознавание речи) - против 19 у предыдущего поколения Qwen3-Omni. В генерации речи TTS доступно 36 языков. Это не просто расширение списка: такой охват меняет категорию применимости модели для глобальных продуктов.

Заслуживает отдельного упоминания функция клонирования голоса, пока доступная только через API. Загружается аудиообразец нужного голоса, и модель использует его для всех голосовых ответов. Через веб-интерфейс эта возможность пока не выведена.

Семантические перебивания и ARIA как ответ на старую проблему голосовых ИИ

Любой, кто пользовался голосовыми ассистентами, знает сценарий: модель отвечает, ты пытаешься уточнить на полуслове - и либо она не слышит, либо обрывается на середине и теряет нить. А если рядом работает телевизор или коллега что-то говорит, ассистент вообще перестаёт понимать кому отвечать.

Qwen3.5-Omni адресует это через два механизма. Semantic Interruption распознаёт намерение прервать - не просто факт звука в микрофон, а именно намерение - и корректно реагирует. Turn-taking Intent Recognition отделяет реплики говорящего от фонового шума ещё до того, как принимается решение об ответе.

ARIA - Adaptive Rate Interleave Alignment - решает проблему другого рода. Традиционный синтез речи страдает от рассинхронизации между генерацией текста и аудиовыходом: появляются паузы, повторения, неестественный ритм. ARIA динамически выравнивает ритм текстовых и аудиоэлементов, что и даёт ощущение естественной живой речи без явных "швов" машинной генерации.

Что выход Qwen3.5-Omni говорит о направлении развития мультимодального ИИ

Есть смысл посмотреть на этот выпуск шире. За несколько недель до Qwen3.5-Omni Alibaba выпустила Qwen3.5 с моделями от 0.8B до 397B параметров, охватив диапазон от мобильных чипов до дата-центров. Теперь к этому добавляется нативно мультимодальная ветка. Ни DeepSeek, ни Mistral не имеют в открытом доступе ничего сопоставимого в части голосово-ориентированных архитектур.

Принципиальный сдвиг здесь не в бенчмарках, хотя 215 SOTA-результатов сложно игнорировать. Сдвиг в том, что "мультимодальность" перестаёт быть синонимом "умеет обрабатывать картинки". Голос становится полноправным первичным модальным входом, а не транскрибируемым дополнением к тексту. Видео обрабатывается как связный нарратив, а не как нарезка кадров.

Для разработчиков это меняет горизонт возможного. Интерфейс типа Audio-Visual Vibe Coding существует не потому что его придумали как продукт, а потому что архитектура достигла точки, в которой такое взаимодействие стало технически естественным. Именно это - а не очередное улучшение числа WER - и есть главное событие в этом релизе.

Модель доступна через Qwen Chat, HuggingFace и API Alibaba Cloud (DashScope).