Myvideo

Guest

Login

Автоматизация МО - - лекция + конспект от YandexGPT

Uploaded By: Myvideo
1 view
0
0 votes
0

Автоматизация МО - - лекция конспект от YandexGPT 00:02 Задачи инженерии данных • Сбор и передача данных, организация сбора данных, мониторинг и анализ работы источников данных, выявление проблем в сборе и передаче данных. • Проектирование базы данных, организация схемы хранения данных, контроль изменений в данных, использование данных при обучении модели. 05:33 Анализ данных • Анализ имеющихся данных, исследование признаков, конструирование новых признаков для обучения модели. • Статистическая информация о данных, хранение данных отдельно для обучения, тестирования, валидации. 10:15 Использование данных при обучении • Улучшение качества работы модели, учет изменений в данных, ответственность за изменение источников данных. • Версионирование элементов решения, отслеживание изменений, оценка влияния изменений на данные, тестирование результатов на отдельных этапах. 17:53 Хранилища данных и витрины данных • Видео обсуждает различные типы хранилищ данных, включая OLTP (транзакционные) и аналитические системы. • OLTP системы работают с конечными пользователями, в то время как аналитические системы используются для анализа и принятия решений. • OLTP системы хранят актуальные состояния данных, в то время как аналитические системы хранят большие объемы данных для анализа. 28:11 Медленно меняющиеся измерения • Видео обсуждает подходы к сохранению изменений в измерениях, включая нулевой, первый, второй и третий уровни. • Нулевой уровень предполагает, что измерения не меняются, первый уровень перезаписывает значения, второй уровень создает новую запись с обновленными данными, а третий уровень хранит версию и дату актуальности. 35:53 ETL системы • ETL системы (Extract, Transform, Load) используются для извлечения, преобразования и загрузки данных из различных источников в хранилище данных. • Второй подход к ETL системам набирает популярность, так как он позволяет избежать ошибок, возникающих при извлечении и сохранении данных. 37:56 Проблемы на этапе трансформации данных • Ошибки, связанные с получением и передачей информации, сбои формирования ответа на запрос, перебои в каналах передачи данных, перебой с количеством данных. • Оценка длительности загрузки данных и приведение их к целевой модели. 42:38 Проблемы на этапе анализа данных • Большие массивы информации и ошибки в логике могут привести к накладным расходам и трате времени. • Использование данных, погружение в структуру для получения информации полезной для поддержки принятия решений. 47:08 Хранилища данных • Озёра данных - хранилище больших объемов неструктурированных данных. • Альтернатива - дата-хаус, объединение структурированных и неструктурированных данных. • Брокер сообщений, менеджер очередей, файловая система, объектное хранилище. 56:46 Анализ данных и управление версиями • В видео обсуждается использование специальных контейнеров (бакетов) для хранения данных разных типов и размеров. • Бакеты могут быть доступны только определенным пользователям или группам. • В видео также рассматривается понятие Content Delivery Network (CDN) и его использование для быстрой доставки контента пользователям веб-сервисов. 01:00:33 Инструменты управления данными • В видео обсуждаются инструменты для контроля версий данных, включая Data Version Control (DVC). • DVC позволяет контролировать изменения в наборах данных, модели и эксперименты, а также создавать потоки операций для автоматизации. • DVC также может быть использован для хранения артефактов в локальном кэше или на удаленном сервере. 01:10:36 Подключение к облачным хранилищам • В видео демонстрируется, как настроить DVC для подключения к облачным хранилищам, таким как Google Drive. • Это позволяет хранить данные в облаке и управлять версиями данных через DVC. • В видео также обсуждаются возможности автоматизации с использованием DVC для запуска цепочек расчетов и публикации изменений в датасетах.

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later