Myvideo

Guest

Login

EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров

Uploaded By: Myvideo
1 view
0
0 votes
0

EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров. EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения. Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео. Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID. Локальный запуск возможен в ComfyUI или отдельный UI-интерфейс . Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса). В процессе установки скачиваются дополнительные модели: sd-vae-ft-mse; sd-image-variations-diffusers; audio_processor(whisper). Лицензирование: Apache-2.0 GitHub [ Stars: 492 | Issues: 6 | Forks: 50 ] Страница проекта Модели на HF Arxiv

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later