Ближайшая конференция I'ML: #imlconf #ml #mlops #IT #conference #jugrugroup LLaVA — Large Language and Visual Assistant — одна из наиболее популярных работ на тему использования больших языковых моделей (LLM) для работы с изображениями. LLaVA одновременно показывает хорошее качество и не требует больших ресурсов, благодаря чему подход перенесли не только на другие языки, но и добавили новые домены, например, видео. Доклад будет состоять из двух частей. В первой разберем теорию, скрывающуюся за LLaVA: как авторы предлагают объединять LLM и изображения, откуда брать данные для этого, какие улучшения предлагались в дальнейшем. Во второй части поделюсь нашим опытом применения этого подхода, но уже для русского языка. Обсудим, какие из шагов легко переносятся, какие — нет, где возникли трудности и как мы их решили. Скачать презентацию с сайта —
Hide player controls
Hide resume playing