В последнее время исследуется применение трансформеров в различных задачах, связанных с обработкой изображений. В отличии от обработки естественного языка, где трансформеры стали стандартным решением для многих задач, применение их к изображениям лимитировано. Большинство моделей просто используют механизм attention совместно со сверхточными сетями, сохраняя уже известные архитектуры. Однако в прошлом году вышла работа, описывающая первую архитектуру для распознавания объектов, основывающуюся только на трансформерах (ViT). И хотя эта модель показывает сравнимые результаты со state-of-the-art сетями, она обладает некоторыми недостатками, такими как большой размер модели и необходимость предобучения на огромных датасетах. На семинаре мы рассмотрим модель T2T-ViT, которая с помощью архитектурных решений борется с проблемами предыдущей модели и показывает результаты не хуже, чем сверхточные сети при соизмеримых размерах. Докладчик: Фарид Багиров.
Hide player controls
Hide resume playing