Курс Deep Reinforcement Learning: Сезон курсов: В четвертой лекции: Рассматривается случай MDP с неизвестными функциями награды и перехода между состояниями; Рассмотрели подход Monte-Carlo и Temporal-Difference для нахождения Q-функции в этом случае; Обсудили epsilon-жадные политики; Вывили алгоритмы Monte-Carlo, SARSA и Q-learning Наши соц.сети: Telegram: Вконтакте:
Hide player controls
Hide resume playing