Myvideo

Guest

Login

Token-to-token ViT: Training Vision Transformers from Scratch on ImageNet

Uploaded By: Myvideo
4 views
0
0 votes
0

В последнее время исследуется применение трансформеров в различных задачах, связанных с обработкой изображений. В отличии от обработки естественного языка, где трансформеры стали стандартным решением для многих задач, применение их к изображениям лимитировано. Большинство моделей просто используют механизм attention совместно со сверхточными сетями, сохраняя уже известные архитектуры. Однако в прошлом году вышла работа, описывающая первую архитектуру для распознавания объектов, основывающуюся только на трансформерах (ViT). И хотя эта модель показывает сравнимые результаты со state-of-the-art сетями, она обладает некоторыми недостатками, такими как большой размер модели и необходимость предобучения на огромных датасетах. На семинаре мы рассмотрим модель T2T-ViT, которая с помощью архитектурных решений борется с проблемами предыдущей модели и показывает результаты не хуже, чем сверхточные сети при соизмеримых размерах. Докладчик: Фарид Багиров.

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later