R-Zero: Саморазвивающаяся логическая LLM, обученная с нуля В данной статье представлена R-Zero, новая структура для обучения логических больших языковых моделей (LLM), способных к саморазвитию с нуля, без использования внешних данных. R-Zero использует коэволюционный цикл между двумя моделями: Challenger, которая генерирует все более сложные задачи, и Solver, которая пытается их решить. Challenger получает вознаграждение за предложение задач на грани возможностей Solver, в то время как Solver получает вознаграждение за успешное выполнение этих задач. Этот процесс создает самосовершенствующуюся программу обучения без каких-либо заранее созданных человеком задач или меток. Эксперименты показывают, что R-Zero улучшает возможности рассуждения различных базовых LLM, включая улучшения на математических и общедоменных эталонных тестах рассуждений. Эта структура также служит эффективным методом обучения в середине процесса, дополнительно повышая производительность после точной настройки на размеченных данных. Авторы предоставляют анализ, подтверждающий компоненты структуры и коэволюционную динамику. #LLM #Саморазвитие #Рассуждение #ИИ #МашинноеОбучение #ОбучениеСПодкреплением #НулевыеДанные документ - подписаться - отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Hide player controls
Hide resume playing