Это доклад Екатерины Глазковой, тимлида команды элайнмента VLM службы компьютерного зрения, на Practical ML Conf 2024. В своём выступлении Екатерина рассказала о продуктовых сценариях использования VLM — нейросетей, которые работают одновременно с изображением и текстом. В докладе основное внимание уделяется методам элайнмента под продуктовые требования на примере трёх реальных задач: мультимодального поиска, описания изображений и фантазийно-генеративных сценариев. Подписывайтесь на телеграм-канал Яндекса для ML-специалистов:
Hide player controls
Hide resume playing