Технологии Apache Spark™ применяются для пакетной обработки данных и позволяют реализовать самые сложные сценарии. При этом нагрузка часто бывает непостоянной и требует больше вычислительных мощностей на ограниченных промежутках времени. Обновлённый сервис Yandex Data Proc, где вы можете развернуть кластеры Apache Spark, позволяет эффективно использовать возможности Yandex Cloud и гибко управлять вычислительными ресурсами. Можно одновременно достичь высокой производительности в пиковые периоды и экономить затраты во время простоя. На вебинаре мы рассказали, как использовать возможности легковесных и временных кластеров Apache Spark в Yandex Data Proc для гибкого управления ресурсами. Показали, как организовать хранение данных в S3 и преобразовывать их с помощью SQL-запросов. Поделились планами и направлениями развития сервиса. Встреча будет полезна инженерам, архитекторам и разработчикам. 00:00 Интро 01:46 Что такое Data Proc? 06:14 Хранение данных и метаданных 09:36 Настройки и доставка своего кода 15:31 Вопросы производительности 25:52 Демо: автомасштабирование кластера 31:00 Инструменты мониторинга и диагностики 40:05 Направления дальнейшего развития 45:07 Вопросы
Hide player controls
Hide resume playing