По примеру оригинальной LLaVA мы собрали русскоязычный инструктивный мультимодальный датасет для обучения. Для проверки моделей перевели два бенчмарка — GQA и MMBench — с английского на русский язык. На нашем датасете обучили несколько моделей и выяснили, что даже с небольшой моделью можно добиться хорошего качества ответов. Полученная модель и собранные датасеты доступны в open source на Hugging Face 🤗: А бенчмарки были интегрированы в популярный фреймворк LMMs-Eval:
Hide player controls
Hide resume playing