Языковые модели ИИ можно взломать, чтобы генерировать вредоносный контент
C помощью простых трюков© Ferra.ru / Kandinsky 3
В статье рассматриваются принципы проектирования LLM, подчеркивается их восприимчивость к атакам противника. Конкевич демонстрирует реальные примеры атак типа «prompt injection», когда пользователи обманом заставляют LLM генерировать нежелательный контент. Эти и другие методы взлома позволяют злоумышленникам обходить функции безопасности.
Риски не просто теоретические, о чем свидетельствуют примеры принуждения LLM к предоставлению инструкций по незаконной деятельности. В статье предлагаются меры защиты, в том числе использование разделителей для разграничения пользовательского ввода и внутренних инструкций, а также пропаганда k-shot обучения и предварительно обученных алгоритмов машинного обучения для обнаружения и предотвращения вредоносных вводов.