Myvideo

Guest

Login

Separating the Chirp from the Chat: Self-supervised Visual Grounding of Sound and Language Исследователи Массачусетского

Uploaded By: Myvideo
3 views
0
0 votes
0

Separating the “Chirp“ from the “Chat“: Self-supervised Visual Grounding of Sound and Language Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит. Он совершенно не контролируется и не использует текст во время обучения. Алгоритм может соотносить объекты с видео со звуками, которые они издают. Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами. DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку. Paper: Website: Code: Video:

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later