Myvideo

Guest

Login

Александр Голубев - Воркшоп по LLM + RLHF

Uploaded By: Myvideo
5 views
0
0 votes
0

- Для чего нужен RLHF - Примеры работы модели в диалоговом режиме без SFT и RL fine-tuning - Как тюнить большие модели на одной карте - SFT fine-tuning - Обучение RM - Дообучение модели с PPO - Демонстрация результатов было vs стало - Разбор концепций, которые использовали в ходе обучения (LoRA adapters, Int8 quantization, PPO, RM training loss, …) Cсылка на ноутбук: Data Fest 2023: Трек “Instruct Models“: Наши соц.сети: Telegram: Вконтакте:

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later