A-vision мультимодальная модель Авито

About Share Download Add to

Константин Веснин рассказывает о разработке A-vision — мультимодальной модели Авито, которая объединяет изображения и текст для автоматической генерации описаний. Он делится деталями архитектуры, сбора данных, адаптации токенизатора, результатами обучения и планами по интеграции модели в продукты. 📎 Больше контента от АвитоТех по ссылке 📎 Конференция от Авито – для тех кто управляет продуктами, процессами и людьми - регистрация Таймкоды: 00:00:04 Введение 00:00:26 Цели презентации 00:00:57 Что такое Vision Language Model 00:02:13 Проблемы генерации описаний 00:03:53 Сбор данных 00:06:13 Сбор собственного датасета 00:07:08 Архитектура VLM 00:09:02 Эксперименты и результаты 00:09:56 Адаптация токенизатора 00:11:45 Результаты адаптации 00:12:44 Обучение модели 00:13:27 Перевод метрик 00:13:57 Результаты обучения 00:14:50 Планы по интеграции 00:15:36 Пример работы модели 00:16:32 Вопросы и ответы 00:20:42 Переобучение модели 00:22:54 Динамическое разрешение 00:24:43 Разделение роутов 00:25:57 Обсуждение модели от Google 00:25:57 Завершение выступления AvitoTech — это команда инженеров Авито. Подпишитесь на наш канал, соцсети и блоги, чтобы узнавать больше о технологиях Авито 👇🏻 ВК: Телеграм: Хабр: Гитхаб: RuTube: Дзен: Сайт:

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/WFZNd2lxSktBZGZZUm4rNHExWWZDazQ4dWN2azJPOEVxMnRFVjk0cEJIYz0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>

Video Size:

Custom size:

Autoplay video

Hide player controls

Hide resume playing

Add to Playlist:

Favorites

My Playlist

Watch Later