EmbodiedOneVision: Предварительное обучение чередованием зрения, текста и действий для общего управления роботами В данной статье представлена EO-Robotics, включающая модель EO-1 и набор данных , направленные на достижение превосходной производительности в мультимодальном воплощенном рассуждении и управлении роботами. EO-1 - это унифицированная воплощенная базовая модель, обученная посредством предварительного обучения чередованием зрения, текста и действий. Модель характеризуется унифицированной архитектурой, обрабатывающей различные мультимодальные входные данные, и использует масштабный набор данных . В обучении используются как авторегрессивная декодировка, так и шумоподавление с согласованием потоков. Эксперименты демонстрируют эффективность этого подхода для понимания и обобщения в открытом мире, что подтверждается сложными задачами манипулирования. В статье подробно описаны архитектура EO-1, конструкция и методология обучения. Рассматривается задача создания обобщенных политик роботов, способных к сложному рассуждению и действиям. Модель объединяет веб-данные зрения-языка с реальными эпизодами роботов, используя аннотации для обеспечения детального геометрического и пространственно-временного представления. #робототехника #ИИ #воплощенныйИИ #мультимодальный #предварительноеОбучение #зрениеЯзыкДействие #обобщение документ - подписаться - отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Hide player controls
Hide resume playing