Спикер: Владимир Нечаев, ИГЭУ (Ивановский Государственный Энергетический Университет), исследователь. Описание: применение существующих моделей преобразования речи с иностранным акцентом в речь без иностранного акцента ограничено особенностями используемой архитектуры, которая не позволяет гибко менять тембр генерируемой речи и требует накопления контекста, что ведёт к увеличению задержки при генерации и делает данные модели непригодными для использования в сценариях коммуникации двух и более людей в реальном времени. Разработана система конвертации акцента с клонированием голоса на основе неавторегрессионной модели, которая состоит из модулей определения акцента и пола, идентификации говорящего, преобразования речи в фонетическое распределение, генерации спектрограммы и декодирования полученной спектрограммы в аудио сигнал. Модель демонстрирует высокое качество конвертации акцента с сохранением оригинального тембра, а также низкие задержки при генерации, приемлемые для использования в сценариях реального времени. Data Fest 2024: Презентацию к докладу Вы можете скачать в треке секции Speech: ______ Наши соц.сети: Telegram: Вконтакте: Канал с вакансиями в telegram: Канал с апдейтами по курсам: Как попасть в чат сообщества ODS Mattermost: Наши видео: YouTube: @ODSAIRu VK Видео: @odsai Rutube:
Hide player controls
Hide resume playing