Спикеры: Глушенко Анатолий, Lead DS ВТБ Ворсин Евгений, Data Scientist Иннотех Задача матчинга достаточно новая, но при этом имеет множество различных постановок. Основная суть – объединение данных, например, данных из разных систем и источников или данных разных модальностей. И подходов к решению также великое множество. Но всё ещё не создано готовых пайплайнов и не найдено путей решения, которые бы являлись хорошей отправной точкой для работы с такими задачами, что открывает огромное пространство для исследований. Почему это так? Этапы решения задач матчинга включают в себя: Перевод данных каждой модальности в векторные представления. Размещение полученных векторов в общем пространстве так, чтобы вектора одной сущности были близки друг к другу, а разных – как можно более отдалены. Отбор и ранжирование кандидатов. Определение наличия верного совпадения и т.д. Для каждого из этих этапов существует множество различных методов, а некоторые варианты постановок и количество рассматриваемых данных требуют, в том числе, сосредоточиться на эффективном использовании вычислительных ресурсов. Мы со своей стороны провели исследование различных подходов, основываясь на постановке задачи представленной на Data Fusion Contest 2022, а именно задаче матчинга последовательностей транзакций и логов кликстриминга. В рамках исследований были рассмотрены: Различные подходы к обработке и подготовке данных такого рода; Способы перевода данных в векторное представление; Варианты построения пайплайна для отбора и ранжирования кандидатов, включая различные техники расчёта численных значений близости векторов; Методы определения наличия верного совпадения и многое другое. В ходе доклада мы говорим про полезные ссылки на слайдах, вот они: Библиотека для Metric learning Статья про подход DRSL Статья про Linformer Библиотека для сборки трансформеров xFormer Статья Event sequence metric learning Полезные ссылки Data Fest Online 2022: Секция ML Trainings x Data Fusion Contest 2022: Хаб ВТБ: Наши соц.сети Telegram: Вконтакте: Twitter:
Hide player controls
Hide resume playing