Myvideo

Guest

Login

Основные алгоритмы обучения с подкреплением SARSA и Q-learning // Демо-занятие курса Reinforcement Learning

Uploaded By: Myvideo
73 views
0
0 votes
0

На занятии мы разберем: - что такое обучение с подкреплением и чем оно принципиально отличается от других подходов машинного обучения; - что такое функция ценности состояния и функция ценности действия-состояния, как они связаны между собой и как помогают нашему агенту учиться; - уравнение Беллмана - основное уравнение в обучении с подкреплением; - метод SARSA - метод итеративного обучения агента; - метод Q-learning - метод итеративного оптимального обучения агента. Занятие будет полезно начинающим специалистам по машинному обучению, которые стремятся расширить свой набор навыков и инструментов обучением с подкреплением. На практической части мы на Python “с нуля“ без использования каких-либо фреймворков реализуем два алгоритма обучения с подкреплением и убедимся, что наш агент успешно обучается. «Reinforcement Learning» - Преподаватель: Игорь Стурейко - (к.ф.-м.н.) Teamlead, главный инженер Дополнительные материалы: Пройдите опрос по итогам мероприятия - Следите за новостями проекта: - Telegram: - ВКонтакте: - LinkedIn: - Хабр:

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later