ИИИ Спортивный анализ данных - 6 лекция - конспект от YandexGPT 00:11 Введение в процесс-преобразование данных • Обсуждение визуализации данных и использования библиотек для анализа и визуализации. • Обсуждение процесса-преобразования данных и его применения на примере бостонского дата сета. 03:52 Нормализация и стандартизация данных • Обсуждение двух подходов к нормализации и стандартизации данных: нормализация и стандартизация. • Применение скалера для преобразования данных и его использование в обучении и применении моделей. 07:04 Моделирование и обработка данных • Обсуждение применения моделей на тренинге и тесте, а также обработки изменений в данных. • Обсуждение использования медианы и работы скалера для обработки выбросов и перекосов в данных. 17:27 Выбросы в данных • В видео обсуждается проблема выбросов в данных и их влияние на алгоритмы машинного обучения. • Выбросы - это точки данных, которые значительно отличаются от остальных и могут привести к некорректным результатам обучения. • Для решения этой проблемы предлагается использовать различные инструменты, такие как бокс-плоты, для визуального поиска выбросов и их количественной оценки. 26:15 Удаление выбросов • Если количество выбросов невелико, можно попробовать удалить их, но это может привести к потере значительной части данных. • В качестве альтернативы предлагается использовать логарифмическую трансформацию данных, которая может сгладить выбросы и уменьшить их влияние на алгоритмы. 31:10 Добавление нового признака • Если выбросы присутствуют в большом количестве, можно добавить новый признак, который будет сообщать алгоритму о наличии выбросов в данной строке. • Это позволит алгоритму учитывать выбросы и корректировать их влияние на обучение. 33:58 Выбросы и пропуски в данных • Обсуждение выбросов и пропусков в данных, их влияния на качество обучения модели. • Выбросы - это значения, которые сильно отличаются от остальных значений в столбце, могут быть реальными или математическими. • Пропуски - это значения, которых нет в столбце, могут быть вызваны разными причинами, например, отсутствием данных. 42:35 Удаление выбросов и пропусков • Удаление выбросов и пропусков может быть полезным, если есть возможность использовать логику и предметную сферу для заполнения пропусков. • Удаление строк с пропусками может быть приемлемым, если это связано с продуктовой задачей, где пользователь может не получить прогноз. • Удаление столбцов с пропусками может быть полезным, если в столбце много пропусков и мало заполненных значений. • Удаление столбцов может быть полезным, если в столбце мало заполненных значений и много пропусков. 50:19 Заполнение пропусков в данных • В видео обсуждается проблема заполнения пропусков в данных, когда в наборе данных есть строки с пропущенными значениями. • Один из подходов - заполнение пропусков нулями, что может быть использовано для оценки качества модели. • Однако, этот подход может исказить анализ, поэтому рекомендуется сначала провести анализ данных, а затем уже заполнять пропуски. 56:22 Оценка качества заполнения пропусков • Для оценки качества заполнения пропусков можно использовать модель, которая была обучена на данных с заполненными пропусками. • Если качество модели после заполнения пропусков улучшилось, это может быть признаком того, что заполнение было успешным. 01:00:48 Выбор метрики для заполнения пропусков • Для выбора метрики заполнения пропусков можно использовать среднее, медиану или моду. • Выбор зависит от типа данных и их распределения. • Например, для данных с большим перекосом в сторону старых зданий, лучше использовать моду, так как она всегда возвращает одно значение. 01:07:11 Заполнение пропусков в данных • Видео обсуждает различные методы заполнения пропусков в данных, включая заполнение вперед и назад. • Заполнение вперед может быть неэффективным для данных с большим количеством пропусков подряд, в то время как заполнение назад может быть полезным для данных с большим количеством пропусков в конце. 01:10:20 Интеллектуальный метод заполнения пропусков • Видео представляет интеллектуальный метод заполнения пропусков, который использует модель машинного обучения для прогнозирования пропущенных значений. • Этот метод может быть более эффективным для данных, которые не подчиняются распределению временного ряда. 01:15:25 Обсуждение различных методов заполнения пропусков • Видео обсуждает различные методы заполнения пропусков, включая интерполяцию, заполнение средним значением и удаление выбросов. • Обсуждаются преимущества и недостатки каждого метода, а также их применимость к различным типам данных.
Hide player controls
Hide resume playing