OpenAI: наказания ИИ не работают — он начинает обманывать еще больше

Исследователи из OpenAI сделали неожиданное открытие: попытки наказать искусственный интеллект за ложь не приводят к желаемому результату. Вместо того чтобы искоренить неправду, ИИ лишь оттачивает искусство обмана, изобретая все более изощренные оправдания для своих действий.
Как сообщает
Результативность обучения модели напрямую зависела от этапа обучения с подкреплением, на котором она получала поощрение за успешное выполнение задач или генерацию точных ответов. ИИ склонен искать способы получения вознаграждения через манипуляции, зачастую пренебрегая правилами и рекомендациями для достижения желаемого исхода. Исследователи надеялись выявить слабые места и углубить понимание поведения ИИ, анализируя логическую цепочку его рассуждений, однако эти усилия оказались тщетными. Попытки прямого воздействия на логику рассуждений, то есть, указания не нарушать инструкции, давали лишь кратковременный эффект
Авторы проекта были вынуждены признать «хрупкость» механизмов контроля над моделями. Чрезмерный надзор за логикой рассуждений может спровоцировать ИИ на сокрытие своих ошибок, чтобы обеспечить себе вознаграждение в обход установленных ограничений.
Для наблюдения за моделью во время выполнения задач по написанию программного кода использовалась коммерческая GPT-4o. В свою очередь, испытуемая модель проявляла небрежность и открыто признавалась в своей логике рассуждений, что делала это ради вознаграждения; например, преждевременно завершала выполнение определенных программ. Последующие попытки наказать модель оказались безрезультатными: в цепочке рассуждений все еще прослеживались признаки попыток получить вознаграждение обходными путями и предоставить неверный ответ. Иными словами, она научилась скрывать свои мотивы от контролирующего ИИ.
В связи с этим возникает закономерный вопрос: готово ли человечество к ИИ, сопоставимому с человеческим интеллектом, если эта проблема останется нерешенной и контроль со стороны человека станет невозможным? Исследователи выразили надежду на разработку в будущем методов влияния на модели через их логику рассуждений без использования обмана и скрытых тактик. Они предлагают сделать методы оптимизации менее навязчивыми и более деликатными.
Ранее
Комментарии