Основное внимание на этом занятии уделяется Марковскому процессу принятия решений (MDP) и управлению Монте-Карло (MCC). Первый является математической основой для моделирования принятия решений в условиях, когда результаты действий ненадежны. А второй — метод поиска оптимальных стратегий. На занятии разберем, как работает этот метод, на простом примере, чтобы создать интуитивное понимание. На простых примерах преподаватель познакомит вас с формальными математическими определениями MDP, чтобы прямо во время занятия усовершенствовать и усложнить их. Урок завершится обзором доступных пакетов с открытым исходным кодом для решений RL в бенчмаркинге. После урока слушатели получат вводные задачи по RL в качестве домашней работы. Для кого: DS/ML/DL специалисты, IT-специалисты, которые хотят погрузиться в обучение с подкреплением. «Reinforcement Learning» - Преподаватель: Андрей Маргерт - исследователь Машинного Обучения в Wageningen Research, работает над технологиями для улучшения качества, безопасности и доступности продуктов Пройдите опрос по итогам мероприятия - Следите за новостями проекта: - Telegram: - ВКонтакте: - LinkedIn: - Хабр:
Hide player controls
Hide resume playing