Myvideo

Guest

Login

EAGLE метод, позволяющий ускорить генерацию ответов от LLM Можно ли генерировать ответ от LLM на двух RTX 3060 быстрее

Uploaded By: Myvideo
1 view
0
0 votes
0

EAGLE — метод, позволяющий ускорить генерацию ответов от LLM Можно ли генерировать ответ от LLM на двух RTX 3060 быстрее, чем на A100 (которая дороже в 16 раз)? Да, это возможно с алгоритмом EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), точность ответов при этом сохраняется. EAGLE позволяет экстраполировать вектора контекстных признаков второго верхнего слоя LLM, что значительно повышает эффективность генерации. EAGLE в 2 раза быстрее Lookahead (13B), и в 1.6 раз быстрее, чем Medusa (13B). И да, EAGLE можно комбинировать с другими методами ускорения, такими как vLLM, DeepSpeed, Mamba, FlashAttention, квантование и аппаратная оптимизация. Hugging Face GitHub

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later