Myvideo

Guest

Login

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

Uploaded By: Myvideo
6 views
0
0 votes
0

В последние годы набирают популярность визуально-языковые модели. Это мультимодальные модели, которые позволяют, например, осуществлять поиск изображений по тексту. Как правило, в таких моделях используются качественные данные, фильтрация и разметка которых стоит очень дорого. На семинаре мы рассмотрим результаты авторов рассматриваемой статьи. Они показали, что в визуально-языковых моделях можно пренебречь качеством текстовых данных и получить высокое качество модели за счёт возникающего большого объёма данных, который компенсирует их зашумлённость. Такой подход позволил авторам получить SOTA модель при использовании архитектуры dual-encoder и contrastive loss на бенчмарках для image-text поиска. Докладчик: Виктория Фролова.

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later