Курс Deep Reinforcement Learning: Сезон курсов: В шестой лекции: Рассматриваются MDP с бесконечным пространством действий; Обсуждается Policy Gradient теорема; Выводятся алгоритмы Reinforce, A2C и DDPG Наши соц.сети: Telegram: Вконтакте:
Hide player controls
Hide resume playing