Узнайте о новейших подходах к обработке данных на ApacheSpark от ведущих дата-инженеров. Таймкоды: 00:00 - Вступление 23:37 - Эволюция ежедневного расчёта на 1 Пб данных: от ClickHouse к shuffle-free Spark 1:15:00 - Демократизация DQ-проверок в DataLakeHouse 2:15:00 - Использование оптимизаций Apache Spark. Storage-Partitioned Join и ее производные в регулярных ETL
Hide player controls
Hide resume playing