Опубликовано 28 января 2023, 15:02
2 мин.

Что такое контрфакты и помогут ли они нам понять природу искусственного интеллекта

Нет, это не про подделки товаров
Многие системы искусственного интеллекта (ИИ) — это чёрные ящики: никто не понимает, как они работают. Из-за этого многие грезят об «объяснимом ИИ». Хочется понимать, почему модель дала определённый результат. Как это ни странно, решить проблему пытаются и философы. В частности предлагают применять контрфактический подход.
Что такое контрфакты и помогут ли они нам понять природу искусственного интеллекта

Контрфактами называются представления об альтернативном исходе события. Это предложения в сослагательном наклонении по типу «если бы.... то...». Как связать это с системами ИИ?

Предположим, человек по имени Сара подает заявку на получение кредита. Банк просит её предоставить некоторую информацию, включая семейное положение, уровень долга, доход, сбережения, домашний адрес и возраст. Затем банк передаёт эту информацию в систему искусственного интеллекта, которая возвращает оценку: вернёт Сара кредит или нет. Однако ни Сара, ни сотрудники банка не знают, почему система дала именно такую оценку. Чтобы сделать систему более прозрачной, нужно попытаться объяснить, как работает модель.

Один из подходов состоит в том, чтобы изучить входы и выходы системы в поисках закономерностей. Тут-то и применяются контрфакты, утверждения о том, что произошло бы, если бы всё сложилось иначе. В контексте ИИ это означает рассмотрение того, какими будут выходные данные, если система получает разные входные данные.

Предположим, что банк передаёт своей системе искусственного интеллекта другую, изменённую информацию о Саре. Исходя из этого, банк вычисляет, что наименьшее изменение, которое потребуется для получения положительного результата, — увеличение показателя дохода. Тогда можно объяснить отрицательный результат так: Саре было отказано в ссуде, потому что её доход был слишком низким.

Звучит всё хорошо, однако, как утверждают исследователи, контрфактический подход неадекватен. Когда мы рассматриваем изменения входных данных и то, как они преобразуются в выходные данные, мы получаем информацию о корреляциях. Но, как гласит старая поговорка, корреляция не есть причинно-следственная связь. Поэтому со стороны банка может быть ошибкой сообщить Саре, что ей было отказано в ссуде, потому что её доход был слишком низким. Всё, что он может сказать с уверенностью, это то, что доход и кредитный рейтинг коррелируют. Сара же останется без объяснения.

Скорее всего, для создания «объяснимого ИИ» нужно использовать другой подход.