Kërkim AIP-EAGLE: Inferencë më e Shpejtë e LLM me Dekodim Spekulativ Paralel në vLLM
P-EAGLE revolucionarizon inferencën e LLM duke integruar dekodimin spekulativ paralel në vLLM, duke arritur deri në 1.69x shpejtësi më të lartë në GPU-të NVIDIA B200. Zbuloni si kjo qasje inovative kapërcen pengesat autoregresive të hartimit për një AI më të shpejtë dhe më efikas.
·7 min lexim