00:04 В этом видео автор продолжает обсуждение визуализации и анализа данных, начатое в предыдущем занятии. • Он объясняет, что они будут работать с набором данных, который включает в себя различные признаки, связанные с квартирами. • Он также упоминает, что они будут использовать Pandas для анализа данных и визуализации. 02:06 Визуализация и статистический анализ • Автор подчеркивает, что они будут анализировать данные в разрезе ключевых признаков, таких как таргет. 09:22 Визуализация и анализ ошибок • В этой части автор обсуждает, как они будут анализировать ошибки в данных, включая логические ошибки и ошибки типа данных. • Он также объясняет, как они будут заменять ошибки и как это повлияет на их анализ. 14:03 Автор обсуждает, как они будут анализировать взаимодействие признаков с таргетом. • Он подчеркивает, что это ключевой аспект их анализа и что они должны количественно оценить влияние каждого признака на таргет. 14:58 Визуальный анализ данных • Автор обсуждает визуальное сравнение двух признаков и их влияние на другие признаки. • Он использует классический скатерплот для сравнения и построения графиков. 17:01 Анализ зависимости между признаками • Автор строит графики для разных признаков и анализирует их зависимость. 21:11 Разделение данных на группы • Автор предлагает разделить данные на группы по образованию и капиталу. • Он также обсуждает возможность создания новых фичей на основе этих данных. 26:48 Анализ зависимости между признаками и оттока • Автор предлагает разбить расходы на дневные расходы и посмотреть на распределение точек по границе 40. • Это может быть полезной фичей для прогнозирования оттока. 30:30 Корреляционный анализ • Видео обсуждает использование корреляционного анализа для определения зависимости между различными переменными. • Корреляция Пирсона используется для определения линейной взаимосвязи между переменными, но не выявляет нелинейные зависимости. 37:43 Примеры корреляции • Видео демонстрирует примеры корреляции между различными переменными, включая образование, доход, количество часов работы и другие. • Корреляция может быть положительной, отрицательной или нулевой, и ее значение может быть использовано для определения значимости признака для модели. 43:10 Важность корреляции • Корреляция не является единственным критерием для определения важности признака для модели. • Различные алгоритмы могут использовать корреляцию по-разному, и важно учитывать это при построении модели. 46:59 Понятие корреляции и ее использование в анализе данных. • Корреляция может быть интерпретирована по-разному, и важно проверить ее на наличие зависимости между переменными. 51:38 Пример корреляции и ее визуализация • В качестве примера рассматривается зависимость между уровнем знаний и размером ноги. • Для визуализации корреляции используется инструмент hetmap. 01:00:50 Применение hetmap для сравнения расходов электроэнергии по месяцам и годам. • Для этого используется метод Pilot Table, который позволяет сгруппировать данные и визуализировать их на одном графике. 01:03:11 Использование метода визуализации данных для анализа и понимания структуры данных. • Визуализация данных может быть использована для понимания корреляций между различными фичами и для разделения данных на группы. 01:07:03 Использование метода кластеризации для разделения данных на две группы. • Метод кластеризации позволяет сжать многомерное пространство данных до двухмерного, что облегчает понимание структуры данных. 01:14:07 Различные способы визуализации данных, включая использование градиентного подхода и раскрашивание ячеек таблицы. • Эти методы позволяют более четко наблюдать закономерности в данных и выделять определенные группы. 01:17:50 Использование различных инструментов для визуализации данных, включая стек, который позволяет накладывать данные друг на друга. • Упоминается, что для бизнеса часто требуется статическая визуализация, а для более детального анализа данных могут быть полезны инструменты, позволяющие масштабировать и приближать данные. 01:20:39 Автоматизация и интерактивность • В видео также обсуждаются инструменты для автоматизации и интерактивности, такие как использование форм для изменения параметров и автоматического выполнения кода при изменении параметров. • Упоминаются различные библиотеки для работы с данными, включая Pandas. 01:23:45 Корреляция признаков • В видео обсуждаются вопросы корреляции признаков в моделях, и как это может влиять на качество модели. • Упоминается, что корреляция между признаками может быть как хорошей, так и плохой, и что важно учитывать это при построении модели. 01:24:42 Категориальные признаки • В видео подчеркивается, что для работы с категориальными признаками необходимо использовать статистические методы, такие как метод квадрата, для отбора значимых признаков. • Упоминается, что для работы с категориальными признаками можно использовать различные инструменты, включая построение боксов и круговых диаграмм.
Hide player controls
Hide resume playing