Наука и технологии

Нейросеть Яндекса научили читать дореволюционные тексты

Нейросеть Яндекса поможет историкам, социологам, демографам, генеалогам и всем, кто ищет сведения о своей семье, расшифровать дореволюционные тексты со сложной орфографией. В основе лежит алгоритм оптического распознавания символов.

Эта функция появилась в сервисе Яндекса «Поиск по архивам». Нейросеть научили распознавать особенности почерка, узнавать утратившие актуальность буквы и понимать особую структуру архивных документов. Если навести курсор на нужный фрагмент, документа, он сразу подсветится и на цифровой копии. Первым архивом, добавленным в сервис, стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть.

На данный момент в базу добавлены архивы Оренбургской и Новгородской областей. Количество данных со временем увеличится.

Среди доступных для распознавания документов метрические книги, исповедные ведомости, ревизские сказки с результатами переписи населения XVIII – начала XX веков.