OpenVLA: Open-Source Vision-Language-Action модели. OpenVLA - набор моделей с 7млрд

About Share Download Add to

OpenVLA: Open-Source Vision-Language-Action модели. OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами. OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах. Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper). Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных. OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X). Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/R0pUaVBMTHpzaHlnVGNOZUdNMldhUkJnTWtmVDRtczVMejN5VFV0NE9CWT0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>

Video Size:

Custom size:

Autoplay video

Hide player controls

Hide resume playing

Add to Playlist:

Favorites

My Playlist

Watch Later