Ждем контролНетов на стероидах. На выходных не поленился почитал статью от Метачки с броским названием Sapiens. Статья невыносимо крутая. Авторы взяли и немного сузили класс задач компьютерного зрения, а именно до тех изображений, где находится человек (ибо это самый востребованный класс). И получили убойное семейство моделей для четырех фундаментальных задач комп зрения - оценки 2D-позы, сегментации частей тела, оценки глубины и предсказания нормалей. По качеству убрали все аналогичные частные случаи. Ну и самое главное - вывалили все этот в опенсорс. Ждем нaтренированных как рексы контролНетов, ибо проделанная работа впечатляет. Взяли миллиард изображений людей, вычистили его от мусора, получили 300(!) миллионов картинок с людьми, причем 17% - один кожаный в кадре, а 56% - больше 4 кожаных в кадре (что важно для будущих генераций). Для оценки глубины взяли 600 качественных фотограмметрических сканов кожаных (то бишь 3Д-моделей оных) и отрендерили полмиллиона(!) ракурсов и поз в 4K, чтобы на них обучаться по глубине. Случайный фон выбирался из коллекции 100 HDRI карт окружения. Для нормалей - аналогично. Все это добро обучалось на кластере из 1024 A100 за 18 дней. И там несколько размеров моделей - от до 2B. В общем очень круто, поглядите хотя бы на сайт проекта, там внутри ссылка на код и на статью.
Hide player controls
Hide resume playing