Slides: Speaker: Dmitry Kurtsev, Lomonosov Moscow State University Трансформеры стали одним из самых важных архитектурных открытий в области deep learning и позволили добиться многих прорывов за последние несколько лет в задачах NLP и CV. В данном докладе представляются простые архитектуры, основанные на многослойном перцептроне, MLP-Mixer и gMLP. Они ставят под сомнение необходимость слоя self-attention для достижения хорошей точности. MLP сети получают конкурентоспособные результаты в задачах классификации текстов и изображений, при этом затраты на pre-train и fine-tuning сопоставимы с sota.
Hide player controls
Hide resume playing