В стандартном процессе машинного обучения ставится задача поиска глобального минимума функции потерь. При этом ландшафт функции потерь для задач глубокого обучения обычно чрезвычайно сложен, до сих пор неизвестна форма локальных минимумов, их устройство и взаимное расположение. Это приводит к тому, что наиболее популярные на данный момент методы оптимизации (SGD, Adam) могут сойтись в локальный минимум, не являющийся глобальным. К счастью, в последние несколько лет появилось множество подходов, которые модифицируют стандартные SGD и Adam для более качественного обучения моделей и показывают значимое улучшение результатов для исследуемых моделей. Однако, исследователи обычно изучают эффективность предложенных методов на задачах машинного зрения (CIFAR-10, CIFAR-100, ImageNet). На семинаре мы обсудим принципы работы некоторых из новых методов, а также обобщаемость полученных авторами этих методов результатов на другие задачи глубокого обучения, в частности, на задачу суммаризации кода в имя метода. Докладчик:
Hide player controls
Hide resume playing