Emu3: набор MMLM, основанный на методе предсказании следующего токена

About Share Download Add to

Emu3: набор MMLM, основанный на методе предсказании следующего токена. Модели Emu3 разработаны для задач мультимодальной изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео. Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования. Процесс изображения). Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео). Представлены 3 модели: Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы; Emu3-Gen – модель для и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений. Инференс моделей пока доступен только в СLI на Transformers, примеры для

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/ZHNZbm95eDFZUGljZWtwZWlLbUFkbFhhVWZFcExTVGNhWnpYaHc1OVRaTT0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>