EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров

About Share Download Add to

EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров. EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения. Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео. Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID. Локальный запуск возможен в ComfyUI или отдельный UI-интерфейс . Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса). В процессе установки скачиваются дополнительные модели: sd-vae-ft-mse; sd-image-variations-diffusers; audio_processor(whisper). Лицензирование: Apache-2.0 GitHub [ Stars: 492 | Issues: 6 | Forks: 50 ] Страница проекта Модели на HF Arxiv

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/Rm92VC9OenV2a05zUnNTSnBSaGx5Z3JzNEZtYVRiQUdaRDJOd1RDUTBzYz0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>

Video Size:

Custom size:

Autoplay video

Hide player controls

Hide resume playing

Add to Playlist:

Favorites

My Playlist

Watch Later