ICRT : Внутриконтекстное обучение имитации действия с помощью предсказания следующего токена. In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики. ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека. Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера: Кодировщик изображений обрабатывает разноплановые наблюдения через трансформер, который был обучен на смеси данных ImageNet и Open X-Embodiment Проекторы преобразуют наблюдения, состояние робота и действия в общее латентное пространство для последующего моделирования Трансформер принимает на вход последовательность токенов, представляющих состояние робота и действия, и производит выходные данные, которые используются для управления роботом. Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения. Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных. Установка: conda create -n icrt python= -y conda activate icrt conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia conda install -c conda-forge ffmpeg git clone cd icrt pip install -e . sudo apt install git-lfs git lfs install git clone git@:mlfu7/ICRT checkpoints Пример инференса приведен в ноутбуке . Перед его запуском обязательно ознакомьтесь с рекомендациями по загрузке и созданию собственного датасета. Лицензирование : Apache 2.0 License. Arxiv Dataset Модель Github
Hide player controls
Hide resume playing