Зачастую успешные алгоритмы глубокого обучения с подкреплением требует большого количества взаимодействий между агентом и средой и, как следствие, являются вычислительно сложными. Существует множество подходов для увеличения эффективности собранных эпизодов, например иерархическое обучение и имитационные алгоритмы, использующие экспертную оценку. В случае последних, для упрощения процесса разметки иногда понижается качество траекторий, что может негативно сказаться на процессе обучения. Исследование авторов статьи предлагает объединение данных подходов для случая низкокачественной экспертной оценки, используя особую забывчивую структуру буфера опыта. Описанный подход является универсальным и может быть использован совместно с различными off-Policy методами. Докладчик: Александр Киракосян.
Hide player controls
Hide resume playing