00:00:19 Алгоритмы бустинга. Градиентный бустинг. CatBoost. Доклад Воропаева Романа 00:07:14 Обучение с подкреплением (ОП). Виды ОП 00:15:50 Задача “многорукого бандита“ 00:41:05 Конечный марковский процесс принятия решений. ОП без моделирования системы 01:03:52 Метод Монте-Карло. Метод SARSA. Метод Q-обучения. Методы on- и off-policy 01:22:36 Аппроксимация функции значимости. Метод DQN. Policy gradient 01:40:28 ОП с моделированием среды. Недостатки ОП Ссылка на плейлист:
Hide player controls
Hide resume playing