Математика - - практика - Проблемы с данными конспект от YandexGPT 00:03 Проблемы с данными • В видео обсуждаются проблемы с данными, которые могут возникнуть при работе с ними. • Упоминается, что данные могут быть взяты из архивов, что может быть не очень хорошим вариантом для анализа. 11:17 Зависимые признаки • Обсуждается проблема зависимых признаков, которые могут привести к некорректным результатам анализа. • Объясняется, что если признаки зависимы, то модель строится плохо. 15:07 Решение проблем с данными • В видео предлагаются способы решения проблем с данными, включая удаление зависимых признаков и использование других комбинаций данных. • Объясняется, что с точки зрения прогностической, все эти комбинации данных дают один и тот же результат. 17:27 Проблемы с кодированием • Обсуждение проблем с кодированием, связанных с идентификацией и интерпретацией данных. • Упоминается необходимость агрегирования данных для анализа. 19:48 Сопутствующие болезни • Обсуждение проблем с кодированием сопутствующих болезней. • Упоминание о необходимости агрегирования данных для анализа. 26:16 Стажировка и кодирование • Обсуждение проблем с кодированием стажа работы и его влияния на анализ данных. • Упоминание о необходимости хранения одного столбца для стажа работы. 31:33 Учебное пособие • Упоминание о краже учебного пособия и его бесплатном использовании. • Обсуждение необходимости понимания исследователями интерпретации чисел в таблицах и базах данных. 33:28 Понимание шкал данных • Обсуждение различных шкал данных, включая номинальную, порядковую, интервальную и шкалу отношений. • Примеры использования шкал данных в различных областях, таких как генетика, возраст матери при беременности и IQ. 41:57 Интервальная шкала и шкала отношений • Интервальная шкала используется для данных, которые имеют абсолютные значения, такие как возраст матери при беременности. • Шкала отношений используется для данных, которые не имеют абсолютных значений, таких как IQ и шкала температур. • Обсуждение того, что нельзя сказать, что один человек в два раза умнее другого, если их IQ отличается на 20 единиц. 49:05 Обсуждение порядковых шкал • Обсуждение различий между порядковыми и интервальными шкалами, их использование в регрессионных моделях. • Пример: распределение риска для онкологических заболеваний. 52:54 Описательные статистики • Использование библиотеки Pandas для вывода содержимого файла с данными. • Определение индекса для столбцов и использование его для вывода данных. 57:47 Распределение транслокаций • Обсуждение важности генетических исследований в онкологии. • Пример распределения транслокаций в группе детей с онкологическими заболеваниями. 01:03:14 Двухфакторная классификация • Использование условия для выбора строк с нужными данными. • Применение функции для формирования двухфакторной классификации. 01:05:04 Двухфакторная классификация • Автор обсуждает группировку данных по полу и типу острого лимфобластного лейкоза. • Он объясняет, что делает сгруппировав данные по этим факторам, и как это влияет на описательные статистики. 01:06:58 Описательные статистики • Автор обсуждает квартили и как они используются для описания возраста пациентов. • Он также объясняет, что такое таблица сопряженности и как она используется для анализа данных. 01:11:36 Ассоциированные признаки • Автор обсуждает, как можно использовать таблицу сопряженности для определения связи между двумя признаками. • Он приводит примеры, когда один признак может быть связан с другим, и когда это не так. 01:14:52 Корреляция и причинно-следственная связь • Автор объясняет, что корреляция не доказывает причинно-следственную связь между двумя признаками. • Он приводит примеры, когда корреляция может быть вызвана другими факторами, такими как курение и атеросклероз. Весь плейлист:
Hide player controls
Hide resume playing