В задачах обучения с подкреплением агенту необходимо научиться действовать оптимальным образом в среде, максимизируя получаемую награду. Для решения поставленной задачи агент в процессе обучения должен не только научиться эффективно использовать уже выученную стратегию, но и исследовать окружение для поиска потенциально лучшего решения, так называемый exploration-exploitation trade-off. Существует множество подходов для решения задачи исследования среды, однако авторами статьи Self-imitation learning (SIL) был предложен относительно простой алгоритм, в котором дополнительное обучение агента воспроизводить собственные полезные решения может неявно привести к более глубокому изучение среды. Это особенно видно в тех задачах, в которых вознаграждение агента разреженно и/или обусловлено предыдущими достижениями агента, например, чтобы собрать сокровище за закрытой дверью, эту дверь необходимо сначала открыть, для чего требуется найти ключ. На семинаре рассмотрим интуицию и теоретическую основу алгорит
Hide player controls
Hide resume playing