Это доклад с ML Party в Белграде. Его прочитал Антон Клочков, руководитель подгруппы распознавания текста в VLM. Антон рассказал, как в визуальных языковых моделях развивают навыки распознавания символов на картинке. И показал кейсы, где это используется (кроме расшифровки мемов). Больше интересных материалов по ML ищите тут:
Hide player controls
Hide resume playing