Обзор решения задачи Matching, которое заняло 3-е место. На основе транзакций и кликстримов были посчитаны различные признаки. Они основывались на информации о дне и часе, mcc коде или категории, валюте и сумме (направление транзакции учитывалось) или устройстве. Ещё в качестве признаков использовались эмбеддинги, полученные благодаря библиотеке pytorch-lifestream. Для нахождения вероятности того, что клиент ВТБ совпадает с клиентом “Ростелекома”, обучался CatBoostClassifier. На каждую правильную пару случайно выбиралось 8 неправильных. Чтобы сделать решение более стабильным и повысить качество, было обучено множество моделей на разных наборах данных с немного изменёнными параметрами. Предсказанные ими вероятности складывались. Полезные ссылки Data Fest Online 2022: Секция ML Trainings x Data Fusion Contest 2022: Хаб ВТБ: Наши соц.сети Telegram: Вконтакте: Twitter:
Hide player controls
Hide resume playing