Сбер улучшил точность распознавания русской речи ИИ
© Ferra.ru
Метод использует целевые переменные из CTC-модели распознавания, что позволяет формировать более семантические представления данных. Существующие модели обычно опираются на низкоуровневые акустические переменные.
Новый подход показал значительное улучшение в обработке русского языка. Он снижает количество ошибок распознавания на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.
Важное преимущество технологии — возможность обучения на неразмеченных аудиоданных. Это решает проблему дефицита качественных размеченных данных для обучения ИИ-моделей.
Метод масштабируется по размеру модели и объёму данных. Одна архитектура работает как в онлайн-, так и в офлайн-режиме без необходимости переобучения.
Разработка может быть применена в голосовых помощниках, контакт-центрах, системах аналитики телефонных звонков и мультимодальных чат-ботах.