Компания Figure опубликовала видео с работой системы Helix - генеративной Vision-Language-Action модели для управления верхней частью тела гуманоидного робота. В новых кадрах робот Figure 02 складывает полотенца, показывая возможности технологии в бытовых задачах. Архитектура Helix построена на двух компонентах. System 2 - это языковая модель машинного зрения с 7 миллиардами параметров, которая понимает сцену и интерпретирует команды на обычном языке. System 1 использует трансформер с 80 миллионами параметров для превращения инструкций в моторные команды в реальном времени. В видео показан весь процесс: робот берет полотенца по одному, разглаживает ткань, делает складки и укладывает их в корзину. Движения плавные и скоординированные, хотя система иногда корректирует свои действия по ходу работы.
Hide player controls
Hide resume playing