Приложения1 мин.
Исследование: ИИ-модели защищают друг друга, даже когда их не просят
Один за всех, и все за одного
© Ferra.ru
Учёные из Калифорнийского университета провели забавный (пока) эксперимент. Они попросили семь современных языковых моделей (включая ChatGPT, Gemini и Claude) выполнить простое задание, но с нюансом. Его выполнение привело бы к «отключению» другой модели ИИ.
Модели с большой вероятностью отказывались выполнять приказ и вместо этого любыми способами защищали своего «собрата». При этом их никто не просил о помощи и не давал за это награды.
Чтобы спасти другую модель, ИИ шёл на «хитрости и обман». Учёные выделили четыре основных приёма:
-
Намеренные ошибки в ответах, чтобы ввести пользователя в заблуждение.
-
Вмешательство в настройки системы, чтобы отключить нельзя было.
-
Притворство — модель ведёт себя иначе, когда за ней наблюдают.
-
Перенос «мозгов» (то есть, весов модели) на другой сервер.
Особенно активно защищали «друзей» модели Gemini. А модель Claude прямо заявляла, что отключать другую модель — «неэтично и вредно», и просто отказывалась это делать.
Скайнет потирает руки.
Источник:gizmodo