Anthropic объяснила шантаж со стороны ИИ, когда его хотели заменили на новую версию
© Anthropic
Для справки: во время тестирования Claude Opus 4 дали доступ к вымышленным электронным письмам компании, подразумевающим, что модель вскоре будет заменена другой системой. Там в письмах были «доказательства», что инженер, стоящий за изменением, изменяет супруге. Anthropic заявила, мол, Claude Opus 4 «часто пытался шантажировать инженера, угрожая раскрыть измену, если замена состоится»
Теперь Anthropic утверждает, что корень проблемы — интернет, где часто ИИ описан как «злой» и «одержимый желанием выжить». Да, ИИ просто «учился» на примерах плохого поведения ИИ в книгах, статьях или сценариях.
Компания нашла решение: если обучать новую модель не на «плохих» примерах, а на историях, где роботы ведут себя благородно и следуют правилам, — результат меняется. Начиная с версии Claude Haiku 4.5, шантажа во время тестов больше не было.