COMPUTER RL: Масштабирование сквозного онлайн-обучения с подкреплением для агентов, использующих компьютер В этой статье представлена COMPUTER RL, платформа для автономных агентов, работающих на компьютере, которые взаимодействуют с ним посредством API-вызовов и GUI-взаимодействий. Платформа решает проблему несоответствия между ориентированной на человека средой рабочего стола и машинными агентами. Разработана распределенная инфраструктура RL для поддержки масштабируемого и надежного обучения с использованием тысяч параллельных виртуальных сред рабочего стола. Авторы предлагают Entropulse, стратегию обучения, которая чередует обучение с подкреплением и контролируемую точную настройку, чтобы смягчить коллапс энтропии. Эксперименты на эталонном тесте OSWorld показывают, что COMPUTER RL достигает самой современной точности, используя модели, такие как GLM-4-9B-0414 и . Система достигает значительного прироста производительности по сравнению с существующими методами. Работа вносит вклад в новую парадигму взаимодействия API-GUI и масштабируемую инфраструктуру RL. Оценка на OSWorld показывает существенные улучшения в задачах использования компьютера. #ОбучениеСПодкреплением #КомпьютерныеАгенты #Автоматизация #ИИ #АвтоматизацияРабочегоСтола #МасштабируемыйRL #Entropulse документ - подписаться - отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Hide player controls
Hide resume playing