Реалтаймовый нейролипсинк(?) Есть такая опен-сорсная библиотека wav2lip. Она основана на коде из статьи: A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild, опубликованной на ACM Multimedia 2020. Она перестала обновляться 3 года назад. А пару недель назад там обновилось Readme. Где появилась ссылка на сайт И на YCombinator На первом сайте сходу просят денег. На втором висит очень плохое некачественное демо. Губы дрожат даже когда персонажи молчат. Ну то есть внешне это выглядит плохо: “мы когда-то написали wav2lip, бросили ее, а теперь расчехлили обратно и хотим денег, демонстрируя очень плохое качество“. Меня зацепило слово realtime, которое они постоянно обозначают на сайте - пока реалтайма нет ни у кого, и сюда все стремятся. Есть много в разы более качественных проектов типа или атомных обещаний от Алибабы с убойным качеством. Также они манифестируют on-device real-time video translation - и тут я не сильно верю, что это можно сделать в нормальном качестве, да еще и в реалтайме. Дальше идет футуризм и довольно интересные идеи: мы можем вывести человеко-компьютерный интерфейс за рамки текстовых чатов Возможно, встраивание контекста в выражения и язык тела при вводе/выводе данных поможет нам взаимодействовать с компьютерами более человечным образом. Звучит, конечно, интригующе, но пока выглядит как попытка сделать подписочную модель на коде четырехлетней давности с очень плохим итоговым результатом. Если у вас есть опыт работы с wav2lip - пишите в комментарии. Подробнее: Games: Крипто: Pressa24: Celebs:
Hide player controls
Hide resume playing