Темы: Задача о многоруком бандите. Основные понятия в задаче о многоруком бандите. Кумулятивные потери (регрет) алгоритма и его оценки. Дилемма исследования среды и использования текущей информации (exploration-exploitation trade-off). Напоминание: неравенство Хеффдинга. Алгоритм Explore-first, оценки регрета для него. Принцип оптимизма перед лицом неопределенности и алгоритм UCB. Дата лекции: Лектор: Сергей Самсонов (ВШЭ) Оператор: Зинин Роман Монтажёр: Зинин Роман Плейлист на YouTube: Плейлист в ВК:
Hide player controls
Hide resume playing