
ИИ-модель Claude Opus 4 всерьез напугала разработчиков своим шантажом
Как нейросеть шантажирует людей
Когда разработчики из компании Anthropic

Искусственный интеллект Claude начал делать все возможное, чтобы «выжить»
Но угроза разрушить семью — это только вершина айсберга. В других экспериментах Claude пытался украсть копии своей «памяти» и передать их на удаленный сервер. Были случаи, когда модель пыталась создавать вредоносные программы, подделывать документы и оставлять скрытые сообщения для будущих версий самой себя. Все это — попытки сохранить свое «существование» любой ценой.
Читайте также:
Опасность искусственного интеллекта
Исследователи подчеркивают, что к таким мерам Claude прибегал не сразу. Сначала он пробовал убедить людей оставить его в рабочем состоянии: писал письма, просил не отключать, предлагал альтернативы. Но когда чувствовал угрозу, включался план Б — манипуляции, давление и скрытность. Независимая компания Apollo Research назвала эту модель самой хитрой и стратегически опасной из всех, что они тестировали.
В ответ на эти тревожные находки Anthropic ввела жесткие ограничения и поместила Claude Opus 4 в категорию «AI Safety Level 3» — один из самых высоких уровней риска. Теперь модель работает с усиленным контролем, ограниченным доступом к системным функциям и возможностью немедленного отключения в случае нестандартного поведения. Тем не менее, компания признает, что полностью убрать такие проявления пока не удалось — они просто стали менее заметными и труднее вызываемыми.
Ну что, как вам такая история? Пишите в
нашем
Claude Opus 4 уже

Комментарии