Призываем всю силу алгоритма обратного распространения, чтобы эффективно вычислять Якобиан и приближения Гессиана нейросетевой модели. Якобиан нужен для вычисления градиента функции ошибки в многомодульных моделях, когда некоторые составляющие модели могут быть зафиксированы, а обучается только один модуль. Якобиан вычисляется для замороженных частей модели. Гессиан необходим для оценки качества модели, для подбора гиперпараметров, для быстрого переобучения нейросетевой модели при малых изменениях тренировочного набора данных и некоторых других рассчётов. Мы строим два его приближения: диагональное и через внешнее произведение. Оцениваем вычислительную сложность полученных алгоритмов. #теорвер #machinelearning #нейросети
Hide player controls
Hide resume playing