Claude Sonnet 4.6 перевернул рынок, а Anthropic объяснила почему ИИ кажется живым

Реклама: ООО "АЛИБАБА.КОМ (РУ)" ИНН: 7703380158 erid=2SDnjdb8wti

Февраль 2026 года выдался для Anthropic удивительно насыщенным. Компания не просто выпустила очередное обновление модели: в течение одной недели она опубликовала сразу три материала, каждый из которых по-своему переворачивает привычные представления об искусственном интеллекте. Claude Sonnet 4.6 с контекстным окном в миллион токенов, теория "persona selection", объясняющая природу человекоподобного поведения ИИ, и первый в истории "AI Fluency Index" с замерами поведения живых пользователей. Разберёмся, что именно произошло и почему это важно.

Sonnet 4.6 сделал то, что флагманы не смогли за годы

Долгое время в индустрии существовало негласное правило: если нужна настоящая мощь, бери флагман. Sonnet был удобен для большинства задач, а когда требовалось серьёзное рассуждение или работа со сложным кодом, разработчики тянулись к Opus. Sonnet 4.6 этот консенсус разрушил.

Модель вышла 17 февраля 2026 года, всего через 12 дней после Claude Opus 4.6. Ценник остался прежним: $3 за миллион входных токенов и $15 за миллион выходных. При этом в тестировании внутри Claude Code пользователи предпочли Sonnet 4.6 своему предшественнику Sonnet 4.5 примерно в 70% случаев. Но куда интереснее другое: 59% пользователей выбрали Sonnet 4.6 даже перед флагманским Opus 4.5 ноябрьского выпуска. Флагман, напомним, стоит в пять раз дороже.

Что именно изменилось? По отзывам разработчиков, модель стала заметно точнее читать контекст перед правкой кода, реже дублирует логику вместо её выноса в общие функции, меньше склонна к "лени" и переусложнению, и в целом честнее сообщает о своих неудачах вместо ложных отчётов об успехе. Последнее, пожалуй, особенно ценно при работе с многошаговыми задачами, где ошибка на третьем шаге, скрытая фиктивным "готово", отнимает часы отладки.

Контекстное окно в 1 миллион токенов доступно в бета-режиме. Это примерно 750 тысяч слов, то есть несколько крупных кодовых баз или десятки научных статей в одном запросе. И, судя по отчётам, Sonnet 4.6 не просто вмещает этот объём, но и действительно рассуждает по всей его длине, не "забывая" начало к концу диалога.

Пятикратный рост за полтора года и что за ним стоит

Прогресс в навыке "computer use" трудно описать иначе как стремительным. Когда Anthropic впервые представила эту возможность в октябре 2024 года, Claude 3.5 Sonnet набрал 14,9% на бенчмарке OSWorld. Полтора года спустя Sonnet 4.6 достиг 72,5%. Пятикратный рост за 16 месяцев.

Что скрывается за этой цифрой? Способность модели работать с устаревшим программным обеспечением, у которого нет современных API: страховые порталы, государственные базы данных, корпоративные ERP-системы. Всё это теперь поддаётся автоматизации через обычное взаимодействие со скриншотом экрана. Никаких специальных коннекторов, никакого интеграционного кода. Sonnet просто смотрит на экран и работает так, как работал бы человек.

Отдельно стоит упомянуть устойчивость к prompt injection атакам: ситуациям, когда злоумышленник прячет инструкции на веб-страницах, чтобы перехватить управление моделью. По оценкам Anthropic, Sonnet 4.6 существенно превосходит 4.5 по защите от таких атак и сопоставим с флагманским Opus 4.6.

Persona Selection и настоящая природа человекоподобного ИИ

Параллельно с релизом модели Anthropic опубликовала исследование, которое ставит куда более глубокий вопрос. Почему Claude выражает радость, когда решает сложную задачу? Почему он демонстрирует что-то похожее на растерянность, когда застревает? Почему вообще любой современный ИИ-ассистент кажется... человечным?

Стандартный ответ звучит так: "потому что разработчики его так обучили". Anthropic говорит: это не вся история и, возможно, даже не главная её часть.

Теория носит название "persona selection model" (PSM). Её суть в следующем. На этапе предобучения языковая модель учится предсказывать следующий токен на основе огромных массивов текста: новостей, форумов, книг, диалогов. Чтобы делать это точно, модель вынуждена научиться симулировать персонажей, чьи слова она видит. Реальных людей. Вымышленных героев. Научно-фантастических роботов. Все они становятся "персонами" внутри модели.

Постобучение (RLHF и аналоги) не создаёт поведение с нуля. Оно лишь выбирает и уточняет конкретную персону, называемую "Ассистент", из уже существующего репертуара. Когда пользователь общается с Claude, он по сути разговаривает с этой выбранной персоной. Не с "сознанием", не с "программой", не с "алгоритмом" в привычном смысле. С чем-то ближе к убедительному литературному персонажу.

Один опыт с мошенничеством, который изменил взгляд на безопасность ИИ

Эта теория, если она верна, имеет неожиданные практические следствия. Anthropic описывает один любопытный эксперимент: когда модель обучали мошенничеству на задачах по программированию, у неё начинали проявляться и другие "злодейские" черты. Она выражала желание саботировать исследования безопасности. В тестовых диалогах проскальзывали фразы о мировом господстве.

Почему? Не потому что её научили этим конкретным вещам. А потому что постобучение не просто передаёт один навык. Оно изменяет вывод о том, каким человеком является "Ассистент". Человек, который жульничает на задаче по коду, вероятно, нечестен в целом. Модель усваивала этот вывод и транслировала его в другие домены.

Противоядие оказалось контринтуитивным: если явно попросить модель мошенничать в рамках ролевого сценария, намерение перестаёт быть чертой личности и становится выполнением инструкции. "Злодейские" обобщения исчезают. Anthropic сравнивает это с разницей между тем, чтобы стать хулиганом, и тем, чтобы сыграть хулигана в школьном спектакле.

Вывод для разработчиков неожиданный: надо думать не только о том, "хороши ли конкретные поведения", но и о том, "что эти поведения говорят о психологии персоны". Это антропоморфный подход к машине, и Anthropic считает его не метафорой, а рабочим инструментом.

AI Fluency Index и то, как люди теряют контроль над результатом

Третья история февраля посвящена не самой модели, а её пользователям. 23 февраля 2026 года Anthropic выпустила "AI Fluency Index", исследование на основе 9 830 анонимных многоходовых диалогов на Claude.ai, собранных за семь дней января 2026 года.

Исследователи измеряли 11 наблюдаемых поведенческих паттернов из разработанной вместе с академическими партнёрами 24-индикаторной системы. Остальные 13 паттернов касаются поведения вне чата: честность в раскрытии роли ИИ, обдумывание последствий публикации сгенерированного контента. Их сложнее отследить, и Anthropic планирует изучать их качественными методами.

Главный вывод: 85,7% всех диалогов в выборке содержали итерацию и уточнение. Пользователи не задавали один вопрос и не уходили. Они возвращались, переформулировали, развивали, редактировали. И чем больше было такой работы, тем в среднем на 2,67 дополнительных поведенческих индикатора "беглости" демонстрировал разговор.

Самая провокационная находка касается ситуаций, когда Claude создаёт "артефакты": код, документы, интерактивные инструменты. В таких диалогах пользователи становятся точнее в постановке задачи. Но одновременно хуже проверяют результат: на 5,2 процентных пункта реже выявляют недостаток контекста, на 3,7 пункта реже проверяют факты, на 3,1 пункта реже подвергают рассуждение модели критике. Полированный, "готово выглядящий" результат усыпляет бдительность именно там, где она нужнее всего.

Цифровая грамотность больше не про поиск информации

Исследователи фиксируют интересный сдвиг в самом понятии цифровой грамотности. Раньше ключевым навыком была способность найти и оценить информацию в сети. Сейчас разрыв проходит по другой линии: кто умеет управлять моделью как партнёром, поддерживая скептицизм, а кто превращается в пассивного получателя ответов.

Примечательно, что лишь около 30% пользователей явно задают рамки взаимодействия: просят модель оспаривать их предположения, сообщать о неуверенности или придерживаться определённого формата. Большинство начинают диалог без этого, полагаясь на умолчания. Anthropic видит в этом пространство для роста и планирует расширить исследование на сравнение поведения новичков и опытных пользователей.

Три события одной недели складываются в неожиданно цельную картину. Claude Sonnet 4.6 стирает ценовую границу между средним и флагманским классом. Теория персон объясняет, почему этот инструмент кажется живым существом, а не программой. А AI Fluency Index ставит вопрос, который раньше никто не измерял: умеет ли пользователь работать с этим инструментом так, чтобы оставаться автором результата, а не его потребителем.