Kërkim AI

Diagramë që ilustron arkitekturën P-EAGLE për dekodimin spekulativ paralel, duke treguar shpejtësinë e përmirësuar të inferencës së LLM.

P-EAGLE: Inferencë më e Shpejtë e LLM me Dekodim Spekulativ Paralel në vLLM

P-EAGLE revolucionarizon inferencën e LLM duke integruar dekodimin spekulativ paralel në vLLM, duke arritur deri në 1.69x shpejtësi më të lartë në GPU-të NVIDIA B200. Zbuloni si kjo qasje inovative kapërcen pengesat autoregresive të hartimit për një AI më të shpejtë dhe më efikas.

Mar 16, 2026·7 min lexim