Российский ИИ научился читать сложные рукописные слова без ошибок
Разработка поможет улучшить распознавание документов© Ferra.ru
Одним из главных испытаний для новой нейросети стало слово «шиншилла». В рукописном тексте буквы «ш», «и» и «л» могут сливаться, создавая сложности для машинного анализа. Однако нейросеть Smart Engines справилась с задачей, анализируя только форму и взаимное расположение букв, а не угадывая слово по смыслу.
В отличие от традиционных систем, новый алгоритм не использует словарный запас русского языка. Это особенно важно при обработке паспортов, регистрационных штампов и других официальных документов, где ошибки недопустимы.
Для обучения ИИ разработчики использовали 1,2 миллиона строк рукописного текста, сгенерированного с равномерным распределением буквосочетаний. Такой метод минимизирует так называемые «галлюцинации» ИИ — ситуации, когда нейросеть ошибочно «додумывает» слова, которых нет в тексте.