ИИ начал смотреть на мир глазами человека — и его никто этому не учил
Машина сама научилась фокусироваться на лицах и движении© Ferra.ru
В исследовании использовались так называемые Vision Transformers (ViT) — алгоритмы, обучающиеся обрабатывать визуальную информацию. Вместо классического метода с размеченными изображениями они использовали подход под названием DINO — это тип самообучающегося ИИ, который изучает образы без указаний, что именно на них изображено.
Когда такие модели обучили на видео, они неожиданно начали фиксировать внимание на тех же участках, что и человек — например, на лицах, фигурах людей и даже фоне. Удивительно, но без прямого указания, что такое лицо, одна часть модели стабильно выделяла именно лица, другая — очертания тел, третья — детали заднего плана. Это поведение напоминало то, как зрительное восприятие устроено у человека.
Ученые сравнили результаты модели с данными отслеживания движения глаз у людей. Оказалось, что совпадение между вниманием ИИ и человеческим взглядом особенно ярко проявляется в сценах с людьми. Результаты натолкнули исследователей на идею, что привычная модель восприятия «фигура-фон» может быть расширена до трех компонентов — лица, фигура и окружение.
Такие открытия могут быть полезны для создания более понятных и «человечных» роботов, а также в проектах, связанных с поддержкой когнитивного развития у детей.