Максим Кретов, МФТИ в своём докладе рассматривает формализм стохастических вычислительных графов (графов, которые содержат в узлах сэмплинг из распределений). Для расчета градиента функции потерь в таких графах обычный алгоритм обратного распространения ошибки уже не подходит, и нужно применять более сложные методы. В качестве примера спикер рассмотрит различные способы тренировки простой модели seq2seq.
Hide player controls
Hide resume playing