Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для группы НС262 шестого потока обучения. Преподаватель: Артём Васильев Дата: 00:00 Заставка 01:04 Reinforcement learning (RL) 05:00 Обучение с подкреплением 11:53 Примеры задач, решаемых с использованием RL 22:03 Устоявшаяся терминология 23:20 Stateless environment in RL 24:02 Задача о многоруких бандитах 29:07 Gymnasium framework 35:40 Поиск оптимальной стратегии решения 50:52 Cross-entropy method (CEM) 51:29 Пример оптимизации недифференцируемого функционала 59:51 Пример CEM в gym 01:14:45 Марковский процесс принятия решений (Markov decision process, MDP) 01:16:49 Markov property 01:17:37 Markov process 01:31:07 Проблема поиска оптимальной политики 01:56:37 Поиск оптимальной политики Беллмана для MDP (решение “MDP“) 02:36:59 Пример c CartPole DQN Материалы лекции: Открыть в Colab: Открыть в HTML-формате:
Hide player controls
Hide resume playing