Ближайшая конференция SmartData: #SmartData #DataEngineering #IT #conference #jugrugroup Для OK Hadoop — это ключевой компонент инфраструктуры данных: он активно используется как для реализации продуктовой аналитики, так и для продакшена рекомендательных систем. С точки зрения объемов это более 200 PB в HDFS, 70k vcores, 200 TB RAM. Вся инфраструктура в Одноклассниках (и не только) разворачивается во внутреннем контейнерном облаке и этому есть причины: * унификация эксплуатации как железа, так и приложений; * кардинальное повышение утилизации доступного железа. В прошлом году очередь дошла и до Hadoop. Михаил расскажет: * о причинах отказа от классических подходов по развертыванию и эксплуатации Hadoop-кластеров; * о том, как провести миграцию сотен петабайт так, чтобы пользователи этого не заметили; * о сложности жизни с соседями (теперь на одной машине с Hadoop может поселиться другая программа, претендующая на ресурсы); * и, конечно же, о том, какие преимущества получили в итоге (спойлер — значительные). Скачать презентацию с сайта —
Hide player controls
Hide resume playing