Ждем контролНетов на стероидах. На выходных не поленился почитал статью от Метачки с броским названием Sapiens. Статья невыносим

About Share Download Add to

Ждем контролНетов на стероидах. На выходных не поленился почитал статью от Метачки с броским названием Sapiens. Статья невыносимо крутая. Авторы взяли и немного сузили класс задач компьютерного зрения, а именно до тех изображений, где находится человек (ибо это самый востребованный класс). И получили убойное семейство моделей для четырех фундаментальных задач комп зрения - оценки 2D-позы, сегментации частей тела, оценки глубины и предсказания нормалей. По качеству убрали все аналогичные частные случаи. Ну и самое главное - вывалили все этот в опенсорс. Ждем нaтренированных как рексы контролНетов, ибо проделанная работа впечатляет. Взяли миллиард изображений людей, вычистили его от мусора, получили 300(!) миллионов картинок с людьми, причем 17% - один кожаный в кадре, а 56% - больше 4 кожаных в кадре (что важно для будущих генераций). Для оценки глубины взяли 600 качественных фотограмметрических сканов кожаных (то бишь 3Д-моделей оных) и отрендерили полмиллиона(!) ракурсов и поз в 4K, чтобы на них обучаться по глубине. Случайный фон выбирался из коллекции 100 HDRI карт окружения. Для нормалей - аналогично. Все это добро обучалось на кластере из 1024 A100 за 18 дней. И там несколько размеров моделей - от до 2B. В общем очень круто, поглядите хотя бы на сайт проекта, там внутри ссылка на код и на статью.

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/N2xsYytYaVNud1pVRlkraEZRcG9rdENod1F3OGx5VU5nemFrT0UrcUdLbz0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>

Video Size:

Custom size:

Autoplay video

Hide player controls

Hide resume playing

Add to Playlist:

Favorites

My Playlist

Watch Later