Myvideo

Guest

Login

Self-Imitation Learning

Uploaded By: Myvideo
10 views
0
0 votes
0

В задачах обучения с подкреплением агенту необходимо научиться действовать оптимальным образом в среде, максимизируя получаемую награду. Для решения поставленной задачи агент в процессе обучения должен не только научиться эффективно использовать уже выученную стратегию, но и исследовать окружение для поиска потенциально лучшего решения, так называемый exploration-exploitation trade-off. Существует множество подходов для решения задачи исследования среды, однако авторами статьи Self-imitation learning (SIL) был предложен относительно простой алгоритм, в котором дополнительное обучение агента воспроизводить собственные полезные решения может неявно привести к более глубокому изучение среды. Это особенно видно в тех задачах, в которых вознаграждение агента разреженно и/или обусловлено предыдущими достижениями агента, например, чтобы собрать сокровище за закрытой дверью, эту дверь необходимо сначала открыть, для чего требуется найти ключ. На семинаре рассмотрим интуицию и теоретическую основу алгорит

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later