AI výzkumP-EAGLE: Rychlejší odvozování LLM s paralelním spekulativním dekódováním ve vLLM
P-EAGLE revolucionizuje odvozování LLM integrací paralelního spekulativního dekódování do vLLM, čímž dosahuje až 1.69x zrychlení na GPU NVIDIA B200. Objevte, jak tento inovativní přístup překonává úzká místa autoregresivního návrhu pro rychlejší a efektivnější AI.
·7 min čtení