Петр Кудеров | Методы Актор-Критик в CleanRL: PPO, SAC, DDPG

About Share Download Add to

Младший научный сотрудник AIRI, инженер-исследователь ФИЦ ИУ РАН Петр Кудеров рассказывает про продвинутые алгоритмы из семейства актор-критик методов (PPO, SAC, DDPG) на примере их реализации в библиотеке CleanRL. Ссылка на библиотеку CleanRL: Ссылки на реализации рассмотренных алгоритмов: 1) PPO: 2) SAC: 3) DDPG: Плейлист со всеми лекциями «Лето с AIRI»: Анонсы научных мероприятий всегда публикуются в Telegram-канале AIRI:

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/WXh3R3c2Wks3ODY2YUNsUldjc3RDZ0J6TWFTTWMxK1RhaXc5RDZoTWRYVT0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>