Myvideo

Guest

Login

Джедай от Нвидии. Joint-image Diffusion Models for Finetuning-free Personalized Text-to-image Generation В общем они предлагают

Uploaded By: Myvideo
1 view
0
0 votes
0

Джедай от Нвидии. Joint-image Diffusion Models for Finetuning-free Personalized Text-to-image Generation В общем они предлагают как бы (как я понял), что-то среднее между RAG и Лорами, для создания консистентных изображений. Основной козырь - отсутствие долгого файнтюна моделей. Сравнивают в основном с Дримбусом. Основной акцент в работе - на создание синтетический датасетов. Типа дали как референс курточку или сумочку и нагенерили датасет с этими ассетами, с сохранением консистентности. Не очень понятно, куда и когда это будет прикручено. И выглядит очень нарядно, поглядите тут: (там между строк есть один момент - если дать на вход не 1-2, а 20-30 референсных картинок, то производительность катастрофически падает) Но вот вам интересная новость. Есть такая независимая модель для картинок Pixart Sigma. Натренирована знаете где? В Хуавее. Это не чекпойнт, это своя архитектура. Всего параметров, а ухватки, как у SDXL (). Так вот, написал эту модель в одно умное лицо Junsong Chen, который до прошлой недели числился как Research Intern в Хуавее. А теперь он Research Intern в Нвидия. Пишет, что проект Pixart Sigma будут продолжать. Причем он - опен-сорсный. Может пора уже увидеть что-то красивое (и опенсорсное) для картинок от Нвидия??

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later