На семинаре мы обсудим методы стохастической оптимизации, необходимые для решения многих задач оптимизации, возникающих в машинном обучении. Начнем с общей постановки широкого класса задач машинного обучения, сводящихся к параметрической оптимизации и обсудим, почему классические алгоритмы оптимизации для таких задач применять не получается. Затем поговорим про стандартный метод стохастического градиентного спуска, затронем проблемы, которые часто возникают при использовании метода as is и обсудим основные теоретические результаты, известные по данному алгоритму. После рассмотрим некоторые современные модификации, активно применяющиеся (или применявшиеся) для решения практических задача (AdaGrad, SVRG, Adam…). Кроме того, на семинаре помимо «математической» части алгоритмов мы обсудим и некоторые практические аспекты — как реализуются такие алгоритмы для обучения на нескольких CPU/GPU серверах и какие проблемы возникают
Hide player controls
Hide resume playing