Посмотрите как робот чуть больше часа учится играть в дженгу хлыстом полностью в реальной жизни, без всяких симуляций. По-моему результаты под конец довольно впечатляющие. Настолько быстро учиться выходит из-за того что человеческие демонстрации и исправление ошибок встроено прямо в RL пайплайн. Кроме дженги подход работает на куче других задач, например сборка ПК и мебели, на обучение уходит до двух с половиной часов. Сайт проекта
Hide player controls
Hide resume playing