— презентация Large generative language models speedup optimization Современные языковые модели — большие, мощные, но неторопливые. Обзор классических подходов к сжатию моделей. Практический опыт ускорения генеративных языковых моделей типа ruGPT-3 при помощи фреймворков ONNX Runtime, Deepspeed, FasterTransformer. Ускорение моделей за счёт архитектурных изменений. Размещение одной модели по нескольким GPU Data Fest 2023: Трек “NLP“: Наши соц.сети: Telegram: Вконтакте:
Hide player controls
Hide resume playing