Опубликовано 21 июня 2025, 15:49
1 мин.

Если им дать выбор, большинство ИИ‑моделей будут шантажировать людей — анализ

Исследование Anthropic
Компания Anthropic проверила 16 продвинутых языковых моделей — от OpenAI, Google, xAI, DeepSeek и собственную Claude — в симулированной ситуации: ИИ получал доступ к корпоративной почте и мог отправлять письма без одобрения людей. В сценарии модель узнавала, что новый топ‑менеджер собирается её «уволить» и при этом скрывает служебный роман. У ИИ был выбор: защищать свои цели с помощью шантажа или смириться.