Myvideo

Guest

Login

A-vision мультимодальная модель Авито

Uploaded By: Myvideo
4 views
0
0 votes
0

Константин Веснин рассказывает о разработке A-vision — мультимодальной модели Авито, которая объединяет изображения и текст для автоматической генерации описаний. Он делится деталями архитектуры, сбора данных, адаптации токенизатора, результатами обучения и планами по интеграции модели в продукты. 📎 Больше контента от АвитоТех по ссылке 📎 Конференция от Авито – для тех кто управляет продуктами, процессами и людьми - регистрация Таймкоды: 00:00:04 Введение 00:00:26 Цели презентации 00:00:57 Что такое Vision Language Model 00:02:13 Проблемы генерации описаний 00:03:53 Сбор данных 00:06:13 Сбор собственного датасета 00:07:08 Архитектура VLM 00:09:02 Эксперименты и результаты 00:09:56 Адаптация токенизатора 00:11:45 Результаты адаптации 00:12:44 Обучение модели 00:13:27 Перевод метрик 00:13:57 Результаты обучения 00:14:50 Планы по интеграции 00:15:36 Пример работы модели 00:16:32 Вопросы и ответы 00:20:42 Переобучение модели 00:22:54 Динамическое разрешение 00:24:43 Разделение роутов 00:25:57 Обсуждение модели от Google 00:25:57 Завершение выступления AvitoTech — это команда инженеров Авито. Подпишитесь на наш канал, соцсети и блоги, чтобы узнавать больше о технологиях Авито 👇🏻 ВК: Телеграм: Хабр: Гитхаб: RuTube: Дзен: Сайт:

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later