PyData Moscow, 13 октября 2018 г. Градиентный бустинг — метод машинного обучения, появление которого привело к прорыву в решении многих задач, включая поиск в интернете, создание рекомендательных систем и прогнозирование погоды. На протяжении многих лет он остаётся основным методом работы с неоднородными признаками, зашумлёнными данными и сложными зависимостями. CatBoost — это библиотека градиентного бустинга с открытым исходным кодом. Она превосходит по качеству аналоги и имеет дополнительные преимущества. CatBoost поддерживает работу с категориальными признаками (например, жанрами музыки, ID устройства, URL и т. д.) без предобработки данных. У него очень хорошие дефолтные параметры, поэтому их не нужно настраивать для получения качественных моделей. А GPU-реализация CatBoost — самая быстрая среди общедоступных реализаций градиентного бустинга. С возможностями библиотеки мы будем знакомиться на примере решения задачи классификации. Вместе мы пройдём все этапы построения модели прогнозирования и рассмотрим следующие темы: - Выбор подходящих функций потерь и метрик для оптимизации. Обучение модели. - Визуализация процесса обучения и кросс-валидации. - Работа со встроенным детектором переобучения. - Выбор оптимального порога принятия решения. - Важность признаков и интерпретация прогнозов модели. - Применение обученной модели к тестовым данным. Для участия мастер-классе нужен настроенный Jupyter Notebook с установленными библиотеками: catboos, ipywidgets, sklearn, matplotlib, shap. Никита Дмитриев Окончил механико-математический факультет МГУ и Школу анализа данных. В Яндексе занимается разработкой систем машинного обучения. Другие материалы PyData Moscow –
Hide player controls
Hide resume playing