PuLID FLUX: перенос внешности на генерации в FLUX . PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции. PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev: ID-кодер перенесен из структуры MLP в структуру Transformer; добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT; SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален; добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU; запуск bf16 на RTX 3090-4090 возможен с параметром —aggressive_offload, но генерация будет выполняться очень, очень, очень медленно. В PuLID for FLUX есть два критически важных гиперпараметра: timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4. true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса. Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG. Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI: собственная реализация сообщества ComfyUI; diffusers-based implementation. Важно! проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении; для FLUX-FP8 версия Pytorch >= 2.0, для остальных >= Установка и запуск GradioUI: git clone cd PuLID conda create —name pulid python= conda activate pulid pip install -r pip install -r python Лицензирование : Apache 2.0 License. Arxiv Demo Google Collab Github
Hide player controls
Hide resume playing