Искусственный интеллект Facebook научился «понимать» смысл фотографий и видеозаписей

Без предварительной разметки
Как правило, для обучения нейронных сетей используется набор размеченных фотографий — нужные объекты на нём заключены в прямоугольники. Специалисты Facebook смогли сделать так, чтобы набор фотографий не приходилось размечать заранее — компьютер сам «видит» на нём то, что нужно.

Мы привыкли, что для обучения нейросетей нужно собрать набор фотографий с нужными объектами, например с котами, которые надо разметить в специальных прямоугольниках. Модель потом сама сможет определять объекты (котов) на новых входных данных, то есть новых изображениях.

Специалисты Facebook использовали метод так называемого «полу-контролируемого» обучения. Он позволяет избавиться от этапа разметки объектов. Система DINO способна сама находить интересующие предметы в видеороликах с людьми и животными каких-либо разметок.

Утверждается, что такая система даже работает лучше по сравнению с традиционным обучением. DINO может «понять», что собаки и кошки, например, визуально похожи друг на друга. У системы в памяти есть контекст и метаданные.