Опубликовано 25 января 2023, 13:35
1 мин.

Нейросеть Яндекса научили читать дореволюционные тексты

Сеть точно распознаёт архивные документы
Нейросеть Яндекса поможет историкам, социологам, демографам, генеалогам и всем, кто ищет сведения о своей семье, расшифровать дореволюционные тексты со сложной орфографией. В основе лежит алгоритм оптического распознавания символов.
Нейросеть Яндекса научили читать дореволюционные тексты

Эта функция появилась в сервисе Яндекса «Поиск по архивам». Нейросеть научили распознавать особенности почерка, узнавать утратившие актуальность буквы и понимать особую структуру архивных документов. Если навести курсор на нужный фрагмент, документа, он сразу подсветится и на цифровой копии. Первым архивом, добавленным в сервис, стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть.

На данный момент в базу добавлены архивы Оренбургской и Новгородской областей. Количество данных со временем увеличится.

Среди доступных для распознавания документов метрические книги, исповедные ведомости, ревизские сказки с результатами переписи населения XVIII – начала XX веков.