Myvideo

Guest

Login

Apollo : семейство мультимодальных моделей для понимания медиаконтента

Uploaded By: Myvideo
1 view
0
0 votes
0

Apollo : семейство мультимодальных моделей для понимания медиаконтента. Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги. Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров. Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений. Семейство состоит из трех моделей: Apollo 7B Apollo 3B Apollo Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later