• ВХОД
  •  

    Полное описание

    Шаход, Д. М. Метод подавления акустического эха на основе рекуррентной нейронной сети и алгоритма кластеризации / Д. М. Шаход, О. Л. Ибряева. - DOI 10.14529/cmse220204. - Текст : непосредственный // Вестник Южно-Уральского государственного университета. Серия "Вычислительная математика и информатика" = Bulletin of the South Ural State University. Series "Computational mathematics and software engineering" : журнал. - 2022. - Том 11, N 2. - С. 43-58. - ISSN 2305-9052.

    ГРНТИ УДК
    28.23.37004.032.26
    47.05.07004.048
    621.395.664.12

    Рубрики:
    Искусственный интеллект -- Применение
    Нейронные сети -- Применение

    Кл.слова (ненормированные): двойной разговор -- кластеризация -- двунаправленная рекуррентная нейронная сеть -- искусственные нейронные сети -- нейронные сети -- нейросеть -- сигнал дальнего конца -- сигнал ближнего конца -- идеальная двоичная маска
    Аннотация: В статье решается задача подавления акустического эха на основе нейронной сети оценивающей идеальную двоичную маску IBM из признаков, извлеченных из смеси сигналов ближнего и дальнего конца. Новизна предложенного метода заключается в использовании алгоритма кластеризации дополнительно с двунаправленной рекуррентной нейронной сетью BLSTM. Для оценки использования алгоритмов кластеризации EM, Mean-Shift, k-Means, модели были обучены и протестированы на базе данных TIMIT. Для каждой модели были вычислены метрики ERLE, PESQ, STOI, характеризующие ее качество. Использование алгоритмов кластеризации EM, Mean-Shift оказалось неэффективным по сравнению с алгоритмом BLSTM при соотношении сигнал/эхо 10 дБ. При соотношении сигнал/эхо 6 дБ BLSTM+Mean-Shift привел к незначительному улучшению метрики PESQ по сравнению с алгоритмом BLSTM. Результаты экспериментов показали эффективность предложенной модели BLSTM при использовании сети с алгоритмом K-Means, по сравнению с использованием чистой BLSTM для подавления эха в сценариях с двойным разговором. При соотношении сигнал/эхо 10 дБ метрика STOI, характеризующая разборчивость речи, улучшилась на 7%, а метрика PESQ, характеризующая качество восстановления речи, на 18.8%.
    Доп. точки доступа:
    Ибряева, О.Л.

    Экз-ры полностью 564f7eae661f834e76f945d5dbe17e5d/2022/11/2
    Имеются экземпляры в отделах: всего 2 : ЧЗХР (1), ХРЦ (1)
    Свободны: ЧЗХР (1), ХРЦ (1)
    Держатели документа:
    Государственная публичная научно-техническая библиотека России : 123298, г. Москва, ул. 3-я Хорошевская, д. 17 (Шифр в БД-источнике (KATBW): -887925-605996)

    Шифр в сводном ЭК: 68e82a247151085151c47bca30eba794




    Заказ фрагмента документа ₽