Курс Deep Reinforcement Learning 2023: Сезон курсов: В четвертой лекции: - Рассматривается случай MDP с неизвестными функциями награды и перехода между состояниями - Рассмотрели подход Monte-Carlo и Temporal-Difference для нахождения Q-функции в этом случае - Обсудили epsilon-жадные политики - Вывили алгоритмы Monte-Carlo, SARSA и Q-learning Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета. Наши соц.сети: Telegram: Вконтакте: Канал с вакансиями в telegram: Канал с апдейтами по курсам: Как попасть в чат сообщества ODS Mattermost:
Hide player controls
Hide resume playing