Нейросеть научили имитировать речь собеседника при прерываниях в аудиозвонках

Это сделали разработчики из Google
Из-за нестабильного соединения во время звонка речь человека на другом конце провода может звучать прерывисто. Разработчики Google решили эту проблему. Они научили нейросеть имитировать речь собеседника при прерываниях в аудиозвонках.

Дело в том, что при видеозвонках через интернет из-за прохождения сигнала через множество сетей часть аудиопакетов может теряться. Сейчас во всех сервисах применяются алгоритмы маскировки потери пакетов (PLC). Однако при потере слишком большого количества пакетов и увеличении паузы до нескольких десятков миллисекунд могут наблюдаться искажения.

Разработчики из Google и DeepMind представили специальный алгоритм, который может создавать замену утерянным пакетам. Основан алгоритм на нейросети. Она анализирует последние фрагменты речи, а затем заполняет паузу синтезированным голосом собеседника.

Технологию уж протестировали на смартфонах Pixel 4.