Myvideo

Guest

Login

Андрей Кузнецов. Способы обучения языковых моделей пониманию новых типов данных: изображения, видео, аудио

Uploaded By: Myvideo
5 views
0
0 votes
0

Сейчас один из трендов — это мультимодальность. То есть когда фундаментальная (языковая) модель умеет поддерживать связный диалог не только с использованием текста, но и при помощи картинок, видео и аудио. Вышло уже достаточно много моделей и сервисов типа GPT-4V, LLaVA, Qwen-VL и другие. Моя команда разрабатывает мультимодальную модель OmniFusion, которая сейчас показывает очень высокие показатели по ряду метрик, обгоняя другие решения, даже преобладающие по числу параметров. В докладе хочется сконцентрироваться на технологиях и методах добавления новых модальностей, способах обучения таких механизмов и рассказать наш опыт в решении downstream задач, которые возникают на стыке нескольких модальностей. Сайт – Презентация –

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later