«Zero-cost fault tolerance в распределённом глубоком обучении» Алексей Морозов, Руководитель группы модернизации нейронных сетей, Яндекс Рекламные технологии Поделимся опытом, как можно полностью инкапсулировать от ML’щика и исследователя заботу о fault tolerance, распределённой транзакционной записи в storage, асинхронности и минимизации простоев GPU. Дать возможность пользователю автоматически масштабироваться и вообще не думать об инфраструктурных вопросах.
Hide player controls
Hide resume playing