Инженеры Facebook представили новую модель, которая может определить до пяти разных голосов, затем перевести их в текст или разделить на разные дорожки.

Искусственный интеллект (ИИ) компании Facebook научили определять до пять разных голосов в одном разговоре, переводить их в текст или разделить на пять разных дорожек. Команда утверждает, что новый метод превосходит все аналоги по качеству и быстроте разделения источников речи, подавлению шума и реверберации.

Facebook использовала новую рекуррентную нейронную сеть для создания нового класса алгоритмов, использующих внутреннее состояние, похожее на память, для обработки последовательностей входов переменных. При этом модель может автоматически определить говорящих и выбрать речевую модель.

Разделение речи является важнейшим шагом на пути к улучшению коммуникации в различных приложениях — при помощи голосовых сообщений или потокового аудио. Кроме того, методы разделения речи, предложенные исследователями, можно применить для подавления фонового шума, например, при записи музыкальных инструментов.

Ранее исследователи компании Facebook представили модель, которая умеет распознавать слова на 51 языках. На предварительных тестах инструмент показал рекордную точность, этот показатель будет улучшаться по мере обучения. Система, которая содержит около миллиарда параметров, повышает эффективность распознавания речи до 28,8%.

Источник: hightech.fm