Младший научный сотрудник AIRI, инженер-исследователь ФИЦ ИУ РАН Петр Кудеров рассказывает про продвинутые алгоритмы из семейства актор-критик методов (PPO, SAC, DDPG) на примере их реализации в библиотеке CleanRL. Ссылка на библиотеку CleanRL: Ссылки на реализации рассмотренных алгоритмов: 1) PPO: 2) SAC: 3) DDPG: Плейлист со всеми лекциями «Лето с AIRI»: Анонсы научных мероприятий всегда публикуются в Telegram-канале AIRI:
Hide player controls
Hide resume playing