Die Landschaft der künstlichen Intelligenz entwickelt sich rasant, mit einer wachsenden Nachfrage, fortschrittliche KI-Modelle nicht nur in Cloud-Rechenzentren, sondern auch am äußersten Rand von Netzwerken und direkt auf Benutzergeräten bereitzustellen. Dieser Wandel wird durch den Bedarf an geringerer Latenz, verbesserter Privatsphäre, reduzierten Betriebskosten und der Fähigkeit, in Umgebungen mit eingeschränkter Konnektivität zu arbeiten, vorangetrieben. Um diesen kritischen Anforderungen gerecht zu werden, haben NVIDIA und Google zusammengearbeitet, um die neuesten Gemma 4 multimodalen und mehrsprachigen Modelle vorzustellen, die nahtlos von den leistungsstärksten NVIDIA Blackwell-Rechenzentren bis hin zu kompakten Jetson Edge-Geräten skalieren.
Diese Modelle stellen einen bedeutenden Sprung in Effizienz und Genauigkeit dar und machen sie zu vielseitigen Werkzeugen für eine Vielzahl gängiger KI-Aufgaben. Die Gemma 4 Familie ist bereit, die Art und Weise neu zu definieren, wie KI in alltägliche Anwendungen integriert wird, und bietet Fähigkeiten, die die Grenzen dessen, was bei der lokalen KI-Bereitstellung möglich ist, erweitern.
Gemma 4: Fortschritte in multimodaler und mehrsprachiger KI
Das Gemmaverse wurde mit der Einführung von vier neuen Gemma 4 Modellen erweitert, die jeweils auf spezifische Bereitstellungsszenarien zugeschnitten sind und gleichzeitig eine robuste Reihe von Funktionen bieten. Bei diesen Modellen geht es nicht nur um die Größe; es geht um intelligentes Design, das eine starke Leistung bei verschiedenen KI-Herausforderungen liefert.
Die Kernfunktionen der Gemma 4 Modelle umfassen:
- Reasoning: Außergewöhnliche Leistung bei komplexen Problemlösungsaufgaben, die eine anspruchsvollere Entscheidungsfindung ermöglicht.
- Codierung: Fortschrittliche Funktionen zur Code-Generierung und Fehlerbehebung, die Entwickler-Workflows optimieren.
- Agenten: Native Unterstützung für die strukturierte Werkzeugnutzung, die die Erstellung leistungsstarker agentischer KI-Systeme erleichtert.
- Vision, Audio und Video-Fähigkeit: Reichhaltige multimodale Interaktionen für Anwendungsfälle wie Objekterkennung, automatische Spracherkennung (ASR), Dokumenten- und Video-Intelligenz.
- Verschachtelte multimodale Eingabe: Die Fähigkeit, Text und Bilder innerhalb einer einzigen Aufforderung frei zu mischen, bietet eine natürlichere und umfassendere Interaktion.
- Mehrsprachige Unterstützung: Sofortige Unterstützung für über 35 Sprachen, mit Vortraining über mehr als 140 Sprachen, wodurch die globale Zugänglichkeit erweitert wird.
Die Gemma 4 Familie umfasst das erste Mixture-of-Experts (MoE) Modell der Gemma-Reihe, optimiert für Effizienz. Bemerkenswert ist, dass alle vier Modelle auf eine einzige NVIDIA H100 GPU passen, was ihr optimiertes Design demonstriert. Die Varianten 31B und 26B A4B sind leistungsstarke Reasoning-Modelle, die sowohl für lokale als auch für Rechenzentrums-Umgebungen geeignet sind, während die E4B- und E2B-Modelle speziell auf On-Device- und mobile Anwendungen zugeschnitten sind und auf dem Erbe von Gemma 3n aufbauen.
| Model Name | Architecture Type | Total Parameters | Active or Effective Parameters | Input Context Length (Tokens) | Sliding Window (Tokens) | Modalities |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Text |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Text |
| Gemma-4-E4B | Dense Transformer | 7.9B with embeddings | 4.5B effective | 128K | 512 | Text, Audio, Vision, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B with embeddings | 2.3B effective | 128K | 512 | Text, Audio, Vision, Video |
Tabelle 1. Übersicht der Gemma 4 Modellfamilie, zusammenfassend Architekturentypen, Parametergrößen, effektive Parameter, unterstützte Kontextlängen und verfügbare Modalitäten, um Entwicklern die Wahl des richtigen Modells für Rechenzentrums-, Edge- und On-Device-Bereitstellungen zu erleichtern.
Diese Modelle sind auf Hugging Face mit BF16-Checkpoints verfügbar. Für Entwickler, die NVIDIA Blackwell GPUs nutzen, ist ein NVFP4 quantisierter Checkpoint für Gemma-4-31B über den NVIDIA Model Optimizer zur Verwendung mit vLLM erhältlich. Die NVFP4-Präzision behält eine nahezu identische Genauigkeit wie die 8-Bit-Präzision bei, während sie die Leistung pro Watt erheblich verbessert und die Kosten pro Token senkt, was für große Bereitstellungen entscheidend ist.
KI an den Edge bringen: On-Device-Bereitstellung mit NVIDIA Hardware
Da KI-Workflows und -Agenten zunehmend integraler Bestandteil des täglichen Betriebs werden, ist die Fähigkeit, diese Modelle über traditionelle Rechenzentrumsumgebungen hinaus auszuführen, von größter Bedeutung. NVIDIA bietet ein umfassendes Ökosystem aus Client- und Edge-Systemen, von leistungsstarken GPUs wie RTX GPUs bis hin zu spezialisierten Jetson-Geräten und DGX Spark, das Entwicklern die nötige Flexibilität bietet, um Kosten, Latenz und Sicherheit zu optimieren.
NVIDIA hat mit führenden Inferenz-Frameworks wie vLLM, Ollama und llama.cpp zusammengearbeitet, um eine optimale lokale Bereitstellungserfahrung für Gemma 4 Modelle zu gewährleisten. Darüber hinaus bietet Unsloth Day-One-Unterstützung mit optimierten und quantisierten Modellen, was eine effiziente lokale Bereitstellung über Unsloth Studio ermöglicht. Dieses robuste Unterstützungssystem befähigt Entwickler, anspruchsvolle KI direkt dort einzusetzen, wo sie am dringendsten benötigt wird.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Anwendungsfall | KI-Forschung und Prototyping | Edge KI und Robotik | Desktop-Apps und Windows-Entwicklung |
| Wesentliche Merkmale | Ein vorinstallierter NVIDIA KI-Software-Stack und 128 GB vereinheitlichter Speicher ermöglichen lokales Prototyping, Fine-Tuning und vollständig lokale OpenClaw-Workflows | Nahezu keine Latenz dank Architekturfunktionen wie bedingtem Parameterladen und schichtweisen Embeddings, die für schnellere und reduzierte Speichernutzung zwischengespeichert werden können ( weitere Infos) | Optimierte Leistung für lokale Inferenz für Hobbyisten, Kreative und Profis |
| Erste Schritte Anleitung | DGX Spark Playbooks für vLLM, Ollama, Unsloth und llama.cpp Bereitstellungsanleitungen NeMo Automodel für die Feinabstimmung auf Spark-Anleitung | Jetson AI Lab für Tutorials und benutzerdefinierte Gemma-Container | RTX AI Garage für Ollama- und llama.cpp-Anleitungen. Besitzer von RTX Pro können auch vLLM verwenden. |
Tabelle 2. Vergleich der lokalen Bereitstellungsoptionen über NVIDIA-Plattformen hinweg, hervorhebend primäre Anwendungsfälle, Hauptfunktionen und empfohlene Einstiegsressourcen für DGX Spark-, Jetson- und RTX / RTX PRO-Systeme, die Gemma 4 Modelle ausführen.
Sichere agentische Workflows und unternehmensreife Bereitstellungen erstellen
Für KI-Entwickler und -Enthusiasten bietet der NVIDIA DGX Spark, ausgestattet mit dem GB10 Grace Blackwell Superchip und 128 GB vereinheitlichtem Speicher, unvergleichliche Ressourcen. Diese robuste Plattform ist ideal für den Betrieb des Gemma 4 31B Modells mit BF16-Gewichten, ermöglicht effizientes Prototyping und die Erstellung komplexer agentischer KI-Workflows, während eine private und sichere On-Device-Ausführung gewährleistet wird. Das DGX Linux OS und der vollständige NVIDIA Software-Stack bieten eine nahtlose Entwicklungsumgebung.
Die vLLM Inferenz-Engine, konzipiert für das LLM-Serving mit hohem Durchsatz, maximiert die Effizienz und minimiert den Speicherverbrauch auf DGX Spark. Diese Kombination bietet eine Hochleistungsplattform für die Bereitstellung der größten Gemma 4 Modelle. Entwickler können das vLLM for Inference DGX Spark Playbook nutzen oder mit Ollama oder llama.cpp beginnen. Darüber hinaus ermöglicht das NeMo Automodel die direkte Feinabstimmung dieser Modelle auf DGX Spark.
Für Unternehmensanwender bietet NVIDIA NIM einen Weg zur produktionsreifen Bereitstellung. Entwickler können Gemma 4 31B mithilfe einer von NVIDIA gehosteten NIM API aus dem NVIDIA API-Katalog prototypen. Für die vollständige Produktion stehen vorgefertigte und optimierte NIM-Microservices für eine sichere, selbst gehostete Bereitstellung zur Verfügung, unterstützt durch eine NVIDIA Enterprise Lizenz. Dies stellt sicher, dass Unternehmen leistungsstarke KI-Lösungen mit Vertrauen bereitstellen können, die strenge Sicherheits- und Betriebsanforderungen erfüllen.
Physische KI-Agenten mit NVIDIA Jetson stärken
Die Fähigkeiten moderner physischer KI-Agenten schreiten rasant voran, maßgeblich dank Gemma 4 Modellen, die ausgefeilte Audio-, multimodale Perzeption und tiefes Reasoning integrieren. Diese fortschrittlichen Modelle ermöglichen Robotiksystemen, über die einfache Aufgabenausführung hinauszugehen, indem sie ihnen die Fähigkeit verleihen, Sprache zu verstehen, visuellen Kontext zu interpretieren und intelligent zu schlussfolgern, bevor sie handeln.
Auf NVIDIA Jetson Plattformen können Entwickler Gemma 4 Inferenz am Edge mit llama.cpp und vLLM durchführen. Der Jetson Orin Nano beispielsweise unterstützt die Gemma 4 E2B- und E4B-Varianten und erleichtert die multimodale Inferenz auf kleinen, eingebetteten und leistungseingeschränkten Systemen. Diese Skalierungsfähigkeit erstreckt sich über die gesamte Jetson Plattform, bis hin zum beeindruckenden Jetson Thor, was eine konsistente Modellbereitstellung unabhängig vom Hardware-Footprint ermöglicht. Dies ist entscheidend für Anwendungen in der Robotik, Smart Machines und Industrieautomation, wo geringe Latenz und On-Device-Intelligenz von größter Bedeutung sind. Entwickler, die diese Fähigkeiten erkunden möchten, finden Tutorials und benutzerdefinierte Gemma-Container im Jetson AI Lab.
Anpassung und kommerzielle Zugänglichkeit mit NVIDIA NeMo
Um sicherzustellen, dass Gemma 4 Modelle auf spezifische Anwendungen und proprietäre Datensätze zugeschnitten werden können, bietet NVIDIA robuste Fine-Tuning-Funktionen über das NVIDIA NeMo Framework. Insbesondere die NeMo Automodel Bibliothek kombiniert die Benutzerfreundlichkeit des nativen PyTorch mit optimierter Leistung, wodurch der Anpassungsprozess zugänglich und effizient wird.
Entwickler können Techniken wie Supervised Fine-Tuning (SFT) und speichereffiziente LoRA (Low-Rank Adaptation) nutzen, um ein Day-Zero Fine-Tuning durchzuführen. Dieser Prozess beginnt direkt mit den Gemma 4 Modell-Checkpoints, die auf Hugging Face verfügbar sind, wodurch umständliche Konvertierungsschritte entfallen. Diese Flexibilität ermöglicht es Unternehmen und Forschern, Gemma 4 Modelle mit domänenspezifischem Wissen zu versehen und so eine hohe Genauigkeit und Relevanz für spezialisierte Aufgaben zu gewährleisten.
Gemma 4 Modelle sind auf der gesamten NVIDIA KI-Plattform verfügbar und werden unter der kommerziell freundlichen Apache 2.0 Lizenz angeboten. Diese Open-Source-Lizenz erleichtert die breite Annahme und Integration in kommerzielle Produkte und Dienstleistungen und befähigt Entwickler weltweit, mit modernster KI zu innovieren. Von der Leistung von Blackwell bis zur Allgegenwart der Jetson-Plattformen ist Gemma 4 darauf ausgelegt, fortschrittliche KI jedem Entwickler und jedem Gerät näherzubringen.
Originalquelle
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Häufig gestellte Fragen
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Bleiben Sie informiert
Erhalten Sie die neuesten KI-Nachrichten per E-Mail.
