В мире больших языковых моделей долгое время существовала заметная проблема. Многие системы блестяще справляются с короткими запросами, но теряют нить, когда контекст растягивается на десятки или сотни тысяч токенов. Представьте книгу в сотни страниц, где ключевые факты разбросаны по главам. Модель должна не просто запомнить текст, а связать разрозненные детали в coherentную цепочку рассуждений. Именно здесь проявляется настоящая сила интеллекта. И вот появляется QwenLong-L1.5, которая меняет правила игры, демонстрируя, как открытый подход может соперничать с закрытыми гигантами.
Архитектура и основа модели
QwenLong-L1.5 строится на базе Qwen3-30B-A3B-Thinking, мощной модели с архитектурой Mixture of Experts. Общий объем параметров достигает 30 миллиардов, но активных в каждом проходе лишь около 3 миллиардов, что обеспечивает эффективность и скорость. Нативное окно контекста составляет 256 тысяч токенов, но настоящая магия кроется в дополнениях.
Разработчики ввели механизм управления памятью, позволяющий обрабатывать последовательности далеко за пределами физического окна. Это итеративные обновления памяти, где модель шаг за шагом сжимает и перерабатывает информацию, словно человек, делающий заметки по ходу чтения толстого тома. В результате система уверенно работает с контекстами от 1 миллиона до 4 миллионов токенов. Такой подход не просто расширяет пределы, а фундаментально улучшает качество рассуждений на сверхдлинных входах.
По сути, это гибрид: однопроходный анализ внутри окна плюс итеративная память для всего остального. Многостадийное обучение с fusion RL сливает эти режимы в единое целое. А что, если контекст превысит все разумные пределы? Модель не сдастся, а продолжит методично разбирать материал.
Ключевые инновации в обучении
Одна из самых впечатляющих частей - синтез данных. Команда создала пайплайн, генерирующий сложные задачи многопрыжкового рассуждения без ручной разметки. Документы разбираются на атомарные факты и отношения, затем программно компонуются вопросы, требующие глобального grounding. Из 9,2 миллиарда токенов получилось 14,1 тысячи высококачественных сэмплов. Средняя длина - 34 тысячи токенов, максимум - 119 тысяч.
Это не просто наполнение объема. Такие данные учат модель настоящему мышлению: соединять отдаленные доказательства, избегать локальных ловушек. Многие замечали, как обычные модели тонут в "иголке в стоге сена", но здесь акцент на многошаговой логике.
Далее идет стабилизация RL. Длинные последовательности часто приводят к нестабильности: градиенты взрываются, энтропия падает. Здесь ввели балансировку задач и Adaptive Entropy-Controlled Policy Optimization (AEPO). Алгоритм адаптивно контролирует энтропию, предотвращая коллапс политики. Задачи смешиваются умно, с учетом сложности, что позволяет обучать на реально длинных цепочках без сбоев.
Честно говоря, это напоминает, как опытный шахматист тренируется на сложных позициях, постепенно наращивая глубину. Без таких трюков RL на длинных контекстах просто не сходится.
Производительность и бенчмарки
Результаты говорят сами за себя. На OpenAI MRCR при 128K контексте модель набирает +31,7 балла, устанавливая новый SOTA среди всех открытых и многих закрытых систем.
Вот ключевые улучшения по сравнению с базой:
- CorpusQA: +9,69 балла (средний контекст 92,8K токенов)
- LongBench-V2: +6,16 балла (85,5K токенов)
- Общий средний прирост: +9,9 балла на ведущих long-context бенчмарках
QwenLong-L1.5 достигает уровня Gemini-2.5-Pro на шести крупных QA-задачах и сопоставима с GPT-5 в целом. На ультра-длинных задачах (1M-4M токенов) память дает +9,48 балла над базовым агентом.
Интересно, что улучшения переносятся на другие домены: математика, использование инструментов, длинные диалоги. Модель не просто запоминает, а учится думать глубже. А вдруг это ключ к более универсальному интеллекту?
Значение для открытого сообщества
В эпоху, когда лидеры прячут лучшие наработки за API, полный открытый стек - это глоток свежего воздуха. Весы, код обучения, рецепты данных - все доступно. Это позволяет воспроизвести, доработать, применить в своих проектах.
QwenLong-L1.5 показывает: открытость не тормозит прогресс, а ускоряет его. Сообщество может строить поверх, тестировать идеи, масштабировать дальше. Кто знает, какие применения родятся - от анализа юридических архивов до научных обзоров тысяч статей.
В итоге эта модель не просто конкурент. Она задает вопрос: насколько далеко можно зайти, открывая знания? Ответ, судя по результатам, очень далеко. И это вдохновляет думать о следующих шагах в эволюции ИИ.