Ближайшая конференция I’ML: #imlconf #ml #mlops #IT #conference #jugrugroup Языковые модели достигли высокого качества ответов в самом широком спектре задач. Однако им не хватает контекста. Документы в десятки страниц текста А4 не помещаются в контекст алгоритма. Обсудим, как GigaChat увеличил контекст модели до сотен тысяч токенов (дальше — больше) и как проверял качество получившейся модели. Рост контекста модели требует больше GPU-памяти и тратится больше времени на его обработку как на обучении, так и на инференсе. Задача состоит в том, чтобы в распределенном сетапе ускорить модель и оптимизировать использование памяти. Для этого нам помогут следующие технологии и библиотеки: * Flash Attention. * Sliding Window Attention (SWA). * Расчет активаций тензоров. Tensor Parallel, Sequence Parallel. * Ring Attention, Striped Ring Attention. * Бенчмарк понимания длинного контекста PassKey. Расскажу про плюсы и минусы каждого подхода, а также объединю их в пайплайн — на котором обучался GigaChat — позволяющий обучать и использовать модели на контексте в сотни тысяч токенов. Будет полезно NLP-разработчикам и всем, кто интересуется LLM и развитием ИИ. Скачать презентацию с сайта —
Hide player controls
Hide resume playing