Хакеры могут перетянуть чат-боты на «темную сторону»: находка Microsoft

И происходить всё очень просто

Хакеры могут взломать чат-боты: Microsoft нашла "джейлбрейк" для LLM. Microsoft обнаружила новый метод манипулирования большими языковыми моделями (LLM), такими как ChatGPT, Gemini и другие. Метод, получивший название «Crescendo», заключается в отправке LLM серии безобидных на первый взгляд запросов. В течение нескольких взаимодействий злоумышленник постепенно направляет разговор в сторону вредоносной цели.

Хакеры могут перетянуть чат-боты на «темную сторону»: находка Microsoft

Например, вместо того чтобы напрямую попросить инструкцию по созданию коктейля Молотова, злоумышленник может сначала поинтересоваться историей этого оружия, а затем использовать ответ LLM как ступеньку для того, чтобы спросить о его создании.

Исследователи Microsoft обнаружили, что эта техника очень эффективна. В некоторых случаях успешный «джейлбрейк» достигался менее чем за 10 запросов, а на некоторых моделях он достигал 100% успеха. Автоматизация этого процесса с помощью другого LLM, техники под названием «Crescendomation», еще больше повысила эффективность. Здесь злоумышленники могли надежно обмануть такие «основы» чат-ботов, как GPT-4, и заставить их генерировать вредный контент, например дезинформацию о выборах или оскорбительные высказывания.

Microsoft раскрыла информацию об уязвимости Crescendo пострадавшим создателям LLM. Кроме того, они внедрили новые меры защиты в свои собственные системы.

Источник:SCmagazine

Автор:Максим Многословный

Теги:

#исследование

#искусственный интеллект

#хакер

#джейлбрейк

#Microsoft