«GigaChat: наш опыт обучения LLM» Дани Эль-Айясс, Исполнительный директор, SberDevices Большие языковые модели (LLM) являются новым этапом развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста, что выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как подходы, основанные на нулевом или крайне мало числе примеров (Few-Shot/Zero-Shot Learning/Prompting) и построение рассуждений (Reasoning). Но обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки. В докладе мы хотим поделится нашим опытом обучения модели ruGPT-3.5 — большой языковой модели от Сбера, лежащей в основе генеративного сервиса GigaChat, начиная с предобучения и заканчивая RLHF-пайплайном.
Hide player controls
Hide resume playing