Субтитры и голосовые сообщения в VK теперь переводятся в речь на 20% точнее

С помощью больших языковых моделей

Команда AI VK представили обновленную версию технологии автоматического распознавания речи (ASR). Новая система распознает речь в своих продуктах на 20% точнее по сравнению с предыдущим решением.

Субтитры и голосовые сообщения в VK теперь переводятся в речь на 20% точнее

Технология преобразует голос в текст, очищает запись от шума и анализирует звуковые особенности. Использование больших языковых моделей (LLM) и нейросетей помогает системе лучше понимать контекст и смысловые связи, делая расшифровку более естественной.

Модель была дообучена на расширенном наборе аудиоданных из публичных видеороликов VK Видео. Это позволило ей точнее распознавать различные темп и манеры речи. Внутренние тесты показали, что решение превосходит по качеству распознавания (WER) некоторые зарубежные аналоги при работе с русскоязычным контентом.

Обновленная технология уже применяется для создания субтитров в VK Видео и VK Клипах, а также используется во внутренних сервисах компании, например для расшифровки встреч. Она также задействована в голосовых сообщениях мессенджера ВКонтакте и на платформе «Учи.ру».

Источник:VK

Автор:Булат Кармак

Теги:

#vk

#искусственный интеллект

#технологии

#В России