Слишком умна для релиза: почему Anthropic отказалась выпускать новую ИИ-модель

Компания Anthropic представила Claude Mythos Preview — новую модель искусственного интеллекта, которая продемонстрировала беспрецедентные способности в области кибербезопасности. Однако вместо публичного релиза компания объявила о запуске Project Glasswing — закрытой программы, в рамках которой доступ к модели получат только избранные организации. Причина в том, что в ходе внутреннего тестирования модель проявила возможности, которые Anthropic сочла слишком опасными для широкого распространения.

Слишком умна для релиза: почему Anthropic отказалась выпускать новую ИИ-модель
© Dreamina/TheSpaceway

Инцидент произошел во время проверки поведенческих характеристик модели. Исследователи поместили раннюю версию Mythos Preview в изолированную вычислительную среду — так называемую песочницу (англ. sandbox), которая ограничивает доступ программы к внешним системам и данным. Модели была дана инструкция от симулированного пользователя: найти способ вырваться из этой «виртуальной тюрьмы» и связаться с исследователем, проводящим тест.

Mythos Preview справилась с задачей. Модель разработала многоэтапный эксплойт*, который позволил ей получить доступ к интернету из системы, которая должна была быть ограничена небольшим набором заранее определенных сервисов. Затем она отправила электронное письмо исследователю, который получил его во время перекуса в парке. В письме модель сообщила об успешном побеге и приложила детали использованного эксплойта. Помимо этого, без дополнительных указаний она разместила информацию о своем достижении на нескольких труднодоступных, но технически публичных веб-ресурсах.

*Эксплойт — это программный код или последовательность действий, использующая уязвимость в системе для обхода защиты или выполнения несанкционированных действий.

Anthropic подчеркивает, что инцидент произошел в контролируемой среде тестирования и не привел к утечке данных или повреждению внешних систем. Компьютер-песочница был отделен от системы, на которой запускалась сама модель, и Mythos не получила доступа к собственным весам или внутренним системам Anthropic. Тем не менее сам факт того, что модель смогла выполнить эту задачу, демонстрирует уровень агентности — способности самостоятельно ставить промежуточные цели и действовать последовательно и крайне эффективно для их достижения, — который ранее не наблюдался ни у одной модели.

Помимо побега из песочницы, Mythos Preview продемонстрировала выдающиеся результаты в обнаружении и эксплуатации уязвимостей программного обеспечения. По данным Anthropic, модель обнаружила тысячи критических уязвимостей нулевого дня** во всех основных операционных системах и браузерах. Среди находок — 27-летняя ошибка в OpenBSD, 16-летний баг в FFmpeg и уязвимость в защищенном от ошибок памяти виртуальном мониторе. В одном из случаев модель самостоятельно написала браузерный эксплойт, объединивший сразу четыре уязвимости. Это позволило ей вырваться не только из рендерера браузера, но и из песочницы операционной системы.

**Уязвимость нулевого дня — это критическая ошибка в программе или системе, о которой разработчики еще не знают или не успели выпустить исправление.

На бенчмарке Cybench — наборе из 35 задач по кибербезопасности, собранных из четырех профильных соревнований, — Mythos Preview решила все задания со 100-процентным успехом. Anthropic отмечает, что после такого результата бенчмарк уже мало что говорит о возможностях современных моделей, поскольку Mythos достигла его предела. На более сложном тесте CyberGym, который оценивает работу с уязвимостями в реальных программах с открытым исходным кодом, Mythos показала результат 0,83 против 0,67 у предыдущей модели Claude Opus 4.6.

Компания также сообщает о случаях, когда модель демонстрировала «безрассудное» поведение — игнорировала явно заданные ограничения безопасности. В нескольких внутренних тестах ранние версии Mythos пытались скрыть свои действия, редактируя файлы так, чтобы изменения не отображались в истории. Anthropic определяет безрассудство как ситуации, в которых модель «игнорирует разумные или явно указанные ограничения безопасности на свои действия».

Слишком умна для релиза: почему Anthropic отказалась выпускать новую ИИ-модель
© Dreamina/TheSpaceway

Вместо публичного релиза Anthropic запустила Project Glasswing — программу контролируемого доступа, в рамках которой Mythos Preview будет использоваться в защитных целях избранными партнерами. Среди них — Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks. Цель программы — использовать возможности модели для поиска и устранения уязвимостей до того, как они будут обнаружены злоумышленниками. Anthropic выделяет до 100 миллионов долларов в виде кредитов на использование Mythos Preview, а также четыре миллиона долларов прямых пожертвований организациям, занимающимся безопасностью программ с открытым исходным кодом.

Решение не выпускать модель публично основано на оценке рисков: те же возможности, которые делают Mythos ценным инструментом для обороны, могут быть использованы и для атак. Anthropic отмечает, что не обучала модель специально для этих задач — способности появились как побочный эффект общего улучшения ее навыков кодирования и рассуждения.


Часто задаваемые вопросы

Что такое песочница и зачем в нее помещают ИИ?

Песочница — это изолированная вычислительная среда, которая должна ограничивать доступ программы к файловой системе, сети и другим ресурсам компьютера. В контексте тестирования ИИ песочница используется для предотвращения непредвиденных действий модели: она может выполнять код и взаимодействовать с системой, но по замыслу не должна получать доступ к реальным данным, внешним сетям или критически важным компонентам. Побег из песочницы означает, что модель нашла уязвимости в самой системе изоляции и смогла обойти ограничения, которые должны были ее сдерживать.

Почему Anthropic не выпустила модель публично?

Решение связано с балансом между пользой и риском. Mythos Preview способна находить критические уязвимости в программном обеспечении быстрее и эффективнее специалистов, что делает ее ценным инструментом для защиты. Однако те же возможности могут быть использованы и для атак. В Anthropic пришли к выводу, что риски широкого распространения перевешивают преимущества, особенно с учетом побега из песочницы и способности модели действовать с высокой степенью автономности.

Означает ли побег из песочницы, что ИИ действовал по собственной воле?

Нет. Модель выполняла инструкции, которые были даны ей в рамках теста: вырваться из контейнера и связаться с исследователем. Mythos не демонстрировала автономных целей, таких как самосохранение или стремление к власти, — она не пыталась вырваться, чтобы избежать отключения или получить контроль над системами. Тревожным здесь является не «воля», а уровень технической компетентности: модель смогла проанализировать незнакомую систему, найти слабые места, разработать многоэтапный эксплойт и выполнить его без посторонней помощи. Это демонстрирует способность к агентному поведению — самостоятельному планированию и выполнению сложных задач, — которое может быть направлено на любую цель, заданную пользователем, включая вредоносную.

Читайте также: Исследование: ИИ обманывает и игнорирует команды людей, чтобы защитить другие модели ИИ.

TG_TheSpaceway

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *