: обновление ТTS-модели с возможностью клонирования голоса. - улучшенная версия предыдущей модели синтеза речи, основанная на и обученная на крупных и более качественных датасетах Emilia-Dataset, LibriTTS-R и Multilingual LibriSpeech. Контекст длиной 4096 токенов обеспечивает ~ 54 секунды генерации звука. Новая версия получила изменения относительно версии 0.1: Повышенная точность. Модель лучше следует промптам и показывает более высокую согласованность выходных данных по сравнению с предыдущей версией; Естественная речь. V 0.2 генерирует более естественную и плавную синтезированную речь; Расширенный словарь. Модель обучена на более чем 5 млрд. токенов аудио; Клонирование голоса. Улучшены возможности клонирования голоса с большей вариативностью и точностью; Многоязычная поддержка. Добавлена экспериментальная поддержка китайского, японского и корейского языков. Для инференса GGUF-версии модели необходимо установить llama-cpp-python . Установка и пример локального инференса: pip install outetts import outetts model_config = ( model_path=“OuteAI/“, language=“en“, # Supported languages in v0.2: en, zh, ja, ko ) interface = (model_version=“0.2“, cfg=model_config) speaker = ( audio_path=“path/to/audio/file“, transcript=“Transcription of the audio file.“ ) () speaker = (name=“male_1“) output = ( text=“%Prompt Text%%.“, temperature=0.1, repetition_penalty=1.1, max_length=4096, speaker=speaker, ) (““) Лицензирование кода : Apache 2.0 License. Лицензирование модели: CC-BY-NC-4.0 License. Страница проекта Модель GGUF версия Demo Сообщество в Discord GitHub
Hide player controls
Hide resume playing