Self-Imitation Learning

About Share Download Add to

В задачах обучения с подкреплением агенту необходимо научиться действовать оптимальным образом в среде, максимизируя получаемую награду. Для решения поставленной задачи агент в процессе обучения должен не только научиться эффективно использовать уже выученную стратегию, но и исследовать окружение для поиска потенциально лучшего решения, так называемый exploration-exploitation trade-off. Существует множество подходов для решения задачи исследования среды, однако авторами статьи Self-imitation learning (SIL) был предложен относительно простой алгоритм, в котором дополнительное обучение агента воспроизводить собственные полезные решения может неявно привести к более глубокому изучение среды. Это особенно видно в тех задачах, в которых вознаграждение агента разреженно и/или обусловлено предыдущими достижениями агента, например, чтобы собрать сокровище за закрытой дверью, эту дверь необходимо сначала открыть, для чего требуется найти ключ. На семинаре рассмотрим интуицию и теоретическую основу алгорит

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/VElvRVBYRTBqdUdIZldMclQ1U3lrakNmMTZTZXNqYzFaS1lVbU1SRHgvZz0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>

Video Size:

Custom size:

Autoplay video

Hide player controls

Hide resume playing

Add to Playlist:

Favorites

My Playlist

Watch Later