Myvideo

Guest

Login

Делаем квантизацию LLaMa в int4

Uploaded By: Myvideo
54 views
0
0 votes
0

Используем библиотеку GGML для квантизации, в результате квантизованная LLaMa требует в 3 раза меньше видеопамяти и генерирует текст в 3 раза быстрее. Код к видео: Больше материалов по LLMs: Ml16EbQoepcwMGNi

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later