Code Velocity
Modele AI

Gemma 4: Skalowanie sztucznej inteligencji od centrum danych do urządzeń brzegowych z NVIDIA

·5 min czytania·NVIDIA·Źródło oryginalne
Udostępnij
Modele NVIDIA Gemma 4 umożliwiające AI na urządzeniach brzegowych i w centrach danych

Krajobraz sztucznej inteligencji szybko ewoluuje, a rośnie zapotrzebowanie na wdrażanie zaawansowanych modeli AI nie tylko w chmurowych centrach danych, ale także na samej krawędzi sieci i bezpośrednio na urządzeniach użytkowników. Ta zmiana jest podyktowana potrzebą niższych opóźnień, zwiększonej prywatności, zmniejszonych kosztów operacyjnych oraz zdolności do działania w środowiskach o ograniczonej łączności. W odpowiedzi na te kluczowe wymagania, NVIDIA i Google nawiązały współpracę, aby wprowadzić najnowsze multimodalne i wielojęzyczne modele Gemma 4, zaprojektowane do płynnego skalowania od najpotężniejszych centrów danych NVIDIA Blackwell po kompaktowe urządzenia brzegowe Jetson.

Modele te stanowią znaczący krok naprzód w zakresie wydajności i dokładności, co czyni je wszechstronnymi narzędziami do szerokiego zakresu typowych zadań AI. Rodzina Gemma 4 ma na celu zredefiniowanie sposobu integracji AI z codziennymi aplikacjami, oferując możliwości, które przesuwają granice tego, co jest możliwe w lokalnym wdrażaniu AI.

Gemma 4: Rozwój multimodalnej i wielojęzycznej AI

Świat Gemma powiększył się o cztery nowe modele Gemma 4, każdy zaprojektowany z myślą o konkretnych scenariuszach wdrożeniowych, jednocześnie oferując solidny zestaw możliwości. Modele te to nie tylko kwestia rozmiaru; to inteligentne projektowanie, zapewniające wysoką wydajność w obliczu różnorodnych wyzwań AI.

Kluczowe możliwości modeli Gemma 4 obejmują:

  • Rozumowanie: Wyjątkowa wydajność w złożonych zadaniach rozwiązywania problemów, umożliwiająca bardziej zaawansowane podejmowanie decyzji.
  • Kodowanie: Zaawansowane funkcje generowania i debugowania kodu, usprawniające przepływy pracy deweloperów.
  • Agenci: Natywna obsługa strukturalnego użycia narzędzi, ułatwiająca tworzenie potężnych systemów agentowych AI.
  • Możliwości wizji, audio i wideo: Bogate interakcje multimodalne dla zastosowań takich jak rozpoznawanie obiektów, automatyczne rozpoznawanie mowy (ASR), inteligencja dokumentów i wideo.
  • Przeplatane wejście multimodalne: Możliwość swobodnego mieszania tekstu i obrazów w ramach jednego promptu, oferując bardziej naturalną i kompleksową interakcję.
  • Wsparcie wielojęzyczne: Natywna obsługa ponad 35 języków, z wstępnym trenowaniem na ponad 140 językach, rozszerzająca globalną dostępność.

Rodzina Gemma 4 obejmuje pierwszy model Mixture-of-Experts (MoE) w serii Gemma, zoptymalizowany pod kątem wydajności. Co godne uwagi, wszystkie cztery modele mogą zmieścić się na pojedynczym procesorze graficznym NVIDIA H100, demonstrując ich zoptymalizowaną konstrukcję. Warianty 31B i 26B A4B to wysokowydajne modele rozumowania, odpowiednie zarówno do środowisk lokalnych, jak i centrów danych, natomiast modele E4B i E2B są specjalnie dostosowane do zastosowań na urządzeniach i mobilnych, kontynuując dziedzictwo Gemma 3n.

Nazwa modeluTyp architekturyCałkowita liczba parametrówAktywne lub efektywne parametryDługość kontekstu wejściowego (tokeny)Przesuwne okno (tokeny)Modalności
Gemma-4-31BGęsty Transformer31B256K1024Tekst
Gemma-4-26B-A4BMoE – 128 Ekspertów26B3.8B256KTekst
Gemma-4-E4BGęsty Transformer7.9B z osadzeniami4.5B efektywne128K512Tekst, audio, wizja, wideo
Gemma-4-E2BGęsty Transformer5.1B z osadzeniami2.3B efektywne128K512Tekst, audio, wizja, wideo

Tabela 1. Przegląd rodziny modeli Gemma 4, podsumowujący typy architektur, rozmiary parametrów, efektywne parametry, obsługiwane długości kontekstu i dostępne modalności, aby pomóc programistom wybrać odpowiedni model do wdrożeń w centrach danych, na krawędzi sieci i na urządzeniach.

Modele te są dostępne na Hugging Face z punktami kontrolnymi BF16. Dla programistów wykorzystujących procesory graficzne NVIDIA Blackwell, skwantowany punkt kontrolny NVFP4 dla Gemma-4-31B jest dostępny za pośrednictwem NVIDIA Model Optimizer do użytku z vLLM. Precyzja NVFP4 utrzymuje niemal identyczną dokładność jak precyzja 8-bitowa, jednocześnie znacznie poprawiając wydajność na wat i obniżając koszt na token, co jest kluczowe dla wdrożeń na dużą skalę.

Przenoszenie AI na krawędź sieci: Wdrażanie na urządzeniach za pomocą sprzętu NVIDIA

W miarę jak przepływy pracy AI i agenci stają się coraz bardziej integralną częścią codziennych operacji, zdolność do uruchamiania tych modeli poza tradycyjnymi środowiskami centrów danych jest kluczowa. NVIDIA oferuje kompleksowy ekosystem systemów klienckich i brzegowych, od potężnych procesorów graficznych takich jak RTX po wyspecjalizowane urządzenia Jetson i DGX Spark, zapewniając programistom elastyczność potrzebną do optymalizacji pod kątem kosztów, opóźnień i bezpieczeństwa.

NVIDIA współpracowała z wiodącymi frameworkami wnioskowania, takimi jak vLLM, Ollama i llama.cpp, aby zapewnić optymalne lokalne wdrażanie modeli Gemma 4. Dodatkowo, Unsloth zapewnia wsparcie od pierwszego dnia z zoptymalizowanymi i skwantowanymi modelami, umożliwiając efektywne lokalne wdrażanie za pośrednictwem Unsloth Studio. Ten solidny system wsparcia umożliwia programistom wdrażanie zaawansowanej AI bezpośrednio tam, gdzie jest ona najbardziej potrzebna.

DGX SparkJetsonRTX / RTX PRO
ZastosowanieBadania AI i prototypowanieAI na krawędzi sieci i robotykaAplikacje desktopowe i rozwój pod Windows
Kluczowe cechyZainstalowany wstępnie stos oprogramowania NVIDIA AI oraz 128 GB ujednoliczonej pamięci zasilają lokalne prototypowanie, dostrajanie i w pełni lokalne przepływy pracy OpenClawOpóźnienie bliskie zeru dzięki cechom architektury, takim jak warunkowe ładowanie parametrów i osadzenia dla każdej warstwy, które mogą być buforowane w celu szybszego działania i zmniejszonego zużycia pamięci ( więcej informacji)Zoptymalizowana wydajność dla lokalnego wnioskowania dla hobbystów, twórców i profesjonalistów
Przewodnik wprowadzającyPodręczniki DGX Spark dla przewodników wdrażania vLLM, Ollama, Unsloth i llama.cpp
NeMo Automodel dla przewodnika dostrajania na Sparku
Jetson AI Lab dla samouczków i niestandardowych kontenerów GemmaRTX AI Garage dla przewodników Ollama i llama.cpp. Właściciele RTX Pro mogą również używać vLLM.

Tabela 2. Porównanie opcji lokalnego wdrażania na platformach NVIDIA, podkreślające główne zastosowania, kluczowe możliwości i zalecane zasoby wprowadzające dla systemów DGX Spark, Jetson oraz RTX / RTX PRO działających z modelami Gemma 4.

Budowanie bezpiecznych agentowych przepływów pracy i wdrożeń gotowych dla przedsiębiorstw

Dla programistów i entuzjastów AI, NVIDIA DGX Spark, wyposażony w superchip GB10 Grace Blackwell i 128 GB ujednoliconej pamięci, oferuje niezrównane zasoby. Ta solidna platforma jest idealna do uruchamiania modelu Gemma 4 31B z wagami BF16, umożliwiając efektywne prototypowanie i budowanie złożonych agentowych przepływów pracy AI przy jednoczesnym zapewnieniu prywatnego i bezpiecznego wykonywania na urządzeniu. System operacyjny DGX Linux i pełny stos oprogramowania NVIDIA zapewniają bezproblemowe środowisko programistyczne.

Silnik wnioskujący vLLM, zaprojektowany do obsługi LLM o wysokiej przepustowości, maksymalizuje wydajność i minimalizuje zużycie pamięci na DGX Spark. Ta kombinacja zapewnia wysokowydajną platformę do wdrażania największych modeli Gemma 4. Programiści mogą skorzystać z podręcznika vLLM for Inference DGX Spark lub rozpocząć pracę z Ollama lub llama.cpp. Ponadto NeMo Automodel umożliwia dostrajanie tych modeli bezpośrednio na DGX Spark.

Dla użytkowników korporacyjnych, NVIDIA NIM oferuje ścieżkę do wdrożenia gotowego do produkcji. Programiści mogą prototypować Gemma 4 31B, używając hostowanego przez NVIDIA API NIM z katalogu API NVIDIA. Do pełnoskalowej produkcji dostępne są wstępnie spakowane i zoptymalizowane mikroserwisy NIM do bezpiecznego, samodzielnie hostowanego wdrożenia, wspierane licencją NVIDIA Enterprise License. Gwarantuje to, że przedsiębiorstwa mogą wdrażać potężne rozwiązania AI z pewnością, spełniając rygorystyczne wymagania bezpieczeństwa i operacyjne.

Wzmacnianie fizycznych agentów AI za pomocą NVIDIA Jetson

Możliwości współczesnych fizycznych agentów AI szybko się rozwijają, w dużej mierze dzięki modelom Gemma 4 integrującym zaawansowane audio, multimodalną percepcję i głębokie rozumowanie. Te zaawansowane modele pozwalają systemom robotyki wyjść poza proste wykonywanie zadań, dając im zdolność rozumienia mowy, interpretowania kontekstu wizualnego i inteligentnego rozumowania przed podjęciem działania.

Na platformach NVIDIA Jetson programiści mogą wykonywać wnioskowanie Gemma 4 na krawędzi sieci, używając llama.cpp i vLLM. Na przykład Jetson Orin Nano obsługuje warianty Gemma 4 E2B i E4B, ułatwiając wnioskowanie multimodalne w małych, wbudowanych systemach o ograniczonym poborze mocy. Ta zdolność skalowania rozciąga się na całą platformę Jetson, aż do potężnego Jetson Thor, umożliwiając spójne wdrażanie modeli niezależnie od wymagań sprzętowych. Jest to kluczowe dla zastosowań w robotyce, inteligentnych maszynach i automatyce przemysłowej, gdzie niska latencja i inteligencja na urządzeniu są najważniejsze. Programiści zainteresowani eksploracją tych możliwości mogą znaleźć samouczki i niestandardowe kontenery Gemma w Jetson AI Lab.

Dostosowywanie i dostępność komercyjna dzięki NVIDIA NeMo

Aby zapewnić, że modele Gemma 4 mogą być dostosowane do konkretnych zastosowań i zastrzeżonych zbiorów danych, NVIDIA oferuje solidne możliwości dostrajania za pośrednictwem frameworka NVIDIA NeMo. Biblioteka NeMo Automodel, w szczególności, łączy łatwość użycia natywnego PyTorcha ze zoptymalizowaną wydajnością, czyniąc proces dostosowywania dostępnym i efektywnym.

Programiści mogą wykorzystać techniki takie jak nadzorowane dostrajanie (SFT) i energooszczędne LoRA (Low-Rank Adaptation) do przeprowadzenia dostrajania od dnia zero. Proces ten rozpoczyna się bezpośrednio od punktów kontrolnych modelu Gemma 4 dostępnych na Hugging Face, eliminując potrzebę uciążliwych kroków konwersji. Ta elastyczność pozwala przedsiębiorstwom i badaczom nasycić modele Gemma 4 wiedzą specyficzną dla danej dziedziny, zapewniając wysoką dokładność i trafność dla wyspecjalizowanych zadań.

Modele Gemma 4 są łatwo dostępne na całej platformie NVIDIA AI i są oferowane na licencji Apache 2.0, przyjaznej dla zastosowań komercyjnych. Ta licencja open-source ułatwia szerokie przyjęcie i integrację z produktami i usługami komercyjnymi, umożliwiając programistom na całym świecie innowacje z wykorzystaniem najnowocześniejszej sztucznej inteligencji. Od wydajności Blackwell po wszechobecność platform Jetson, Gemma 4 ma na celu przybliżenie zaawansowanej sztucznej inteligencji każdemu programiście i każdemu urządzeniu.

Często zadawane pytania

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij