What is Gemma 4 and what are its key advancements for AI deployment?

Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.

How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?

Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.

What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?

NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.

How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?

Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.

What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?

Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Gemma 4: การขยายขนาด AI จากศูนย์ข้อมูลสู่เอดจ์ด้วย NVIDIA

title: "Gemma 4: การขยายขนาด AI จากศูนย์ข้อมูลสู่เอดจ์ด้วย NVIDIA" slug: "bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4" date: "2026-04-05" lang: "th" source: "https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/" category: "โมเดล AI" keywords:

Gemma 4
NVIDIA
AI ที่เอดจ์
AI บนอุปกรณ์
AI หลายรูปแบบ
โมเดลภาษาขนาดใหญ่
การติดตั้งใช้งาน AI
Blackwell
Jetson
RTX
vLLM
NeMo meta_description: "สำรวจ Gemma 4 โมเดล AI หลายรูปแบบและหลายภาษาของ NVIDIA ที่ออกแบบมาเพื่อการติดตั้งใช้งานอย่างราบรื่นจากศูนย์ข้อมูล Blackwell ไปยังอุปกรณ์เอดจ์ Jetson ซึ่งขับเคลื่อนแอปพลิเคชันที่ปลอดภัยและมีความหน่วงต่ำ" image: "/images/articles/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4.png" image_alt: "โมเดล NVIDIA Gemma 4 ที่ช่วยให้ AI ทำงานบนอุปกรณ์เอดจ์และศูนย์ข้อมูล" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 5 faq:
question: "Gemma 4 คืออะไร และมีความก้าวหน้าหลักอะไรบ้างสำหรับการติดตั้งใช้งาน AI" answer: "Gemma 4 แสดงถึงโมเดล AI หลายรูปแบบและหลายภาษาเจเนอเรชันล่าสุดจาก Google ซึ่งออกแบบมาสำหรับการติดตั้งใช้งานในวงกว้างบนฮาร์ดแวร์ NVIDIA ทั้งหมด ตั้งแต่ศูนย์ข้อมูล Blackwell อันทรงพลังไปจนถึงอุปกรณ์เอดจ์ Jetson ขนาดกะทัดรัด ความก้าวหน้าหลักของมันรวมถึงประสิทธิภาพและความแม่นยำที่ได้รับการปรับปรุงอย่างมีนัยสำคัญ ทำให้เหมาะสำหรับงานที่หลากหลาย เช่น การแก้ปัญหาที่ซับซ้อน การสร้างโค้ด และการใช้เครื่องมือของเอเจนต์ โมเดลเหล่านี้มีความสามารถหลายรูปแบบที่หลากหลาย รองรับข้อความและรูปภาพที่ผสมผสานกัน และได้รับการฝึกอบรมล่วงหน้าในกว่า 140 ภาษา ความอเนกประสงค์และความสามารถในการปรับขนาดนี้ตอบสนองความต้องการที่เพิ่มขึ้นสำหรับแอปพลิเคชัน AI แบบโลคัล ปลอดภัย ประหยัดค่าใช้จ่าย และมีความหน่วงต่ำ ซึ่งผลักดันปัญญาประดิษฐ์ให้เข้าใกล้แหล่งข้อมูลและการดำเนินการมากขึ้น"
question: "Gemma 4 ช่วยอำนวยความสะดวกในการติดตั้งใช้งาน AI บนอุปกรณ์และที่เอดจ์อย่างไร และแพลตฟอร์ม NVIDIA ใดบ้างที่รองรับ" answer: "Gemma 4 ได้รับการปรับแต่งเป็นพิเศษเพื่อให้สามารถติดตั้งใช้งาน AI บนอุปกรณ์และที่เอดจ์ได้อย่างแข็งแกร่ง ซึ่งสำคัญอย่างยิ่งสำหรับแอปพลิเคชันที่ต้องการความหน่วงต่ำ ความเป็นส่วนตัวที่เพิ่มขึ้น และต้นทุนการดำเนินงานที่ลดลง ชุดระบบไคลเอ็นต์และเอดจ์ที่ครอบคลุมของ NVIDIA ซึ่งรวมถึง RTX GPU, DGX Spark และอุปกรณ์ Jetson มอบความยืดหยุ่นและประสิทธิภาพที่จำเป็น ตัวอย่างเช่น แพลตฟอร์ม Jetson รองรับโมเดล Gemma 4 E2B และ E4B สำหรับการอนุมานหลายรูปแบบบนระบบฝังตัวที่จำกัดพลังงาน ในขณะที่ RTX GPU ให้ประสิทธิภาพที่เหมาะสมที่สุดสำหรับการอนุมานในเครื่องบนเดสก์ท็อป การทำงานร่วมกันกับ vLLM, Ollama, llama.cpp และ Unsloth ช่วยให้มั่นใจถึงประสบการณ์การติดตั้งใช้งานในเครื่องที่มีประสิทธิภาพบนแพลตฟอร์มที่หลากหลายเหล่านี้ ซึ่งช่วยให้ผู้พัฒนารวม AI ขั้นสูงเข้ากับแอปพลิเคชันและอุปกรณ์ของตนได้โดยตรง"
question: "NVIDIA DGX Spark และ NIM มีบทบาทอย่างไรในการพัฒนาและติดตั้งใช้งานโมเดล Gemma 4 สำหรับองค์กร" answer: "NVIDIA DGX Spark มอบแพลตฟอร์มที่ทรงพลังสำหรับนักพัฒนา AI และผู้ที่ชื่นชอบ เพื่อสร้างต้นแบบและสร้างเวิร์กโฟลว์ AI แบบเอเจนต์ที่ปลอดภัยด้วย Gemma 4 ด้วย GB10 Grace Blackwell Superchips และหน่วยความจำรวมขนาด 128 GB, DGX Spark ช่วยให้สามารถรันโมเดล Gemma 4 ที่ใหญ่ที่สุดได้อย่างมีประสิทธิภาพด้วยน้ำหนัก BF16 โดยยังคงรักษาการดำเนินการบนอุปกรณ์ที่เป็นส่วนตัวและปลอดภัย เอนจิ้นการอนุมาน vLLM บน DGX Spark ช่วยเพิ่มประสิทธิภาพในการให้บริการ LLM สำหรับปริมาณงานที่สูง สำหรับการติดตั้งใช้งานในการผลิต NVIDIA NIM นำเสนอไมโครเซอร์วิสที่บรรจุและปรับแต่งไว้ล่วงหน้า ซึ่งเป็นโซลูชันแบบโฮสต์เองที่ปลอดภัยสำหรับองค์กรที่มีใบอนุญาต NVIDIA Enterprise License นอกจากนี้ยังมี NIM API แบบโฮสต์ให้บริการในแคตตาล็อก NVIDIA API สำหรับการสร้างต้นแบบเบื้องต้นอีกด้วย"
question: "นักพัฒนาสามารถปรับแต่งโมเดล Gemma 4 สำหรับข้อมูลโดเมนเฉพาะได้อย่างไร และมีเครื่องมือใดบ้างที่ใช้งานได้" answer: "นักพัฒนาสามารถปรับแต่งโมเดล Gemma 4 ด้วยข้อมูลโดเมนเฉพาะของตนโดยใช้เฟรมเวิร์ก NVIDIA NeMo โดยเฉพาะไลบรารี NeMo Automodel เครื่องมืออันทรงพลังนี้รวมความง่ายในการใช้งานของ PyTorch ดั้งเดิมเข้ากับประสิทธิภาพที่ปรับให้เหมาะสม ทำให้สามารถปรับแต่งโมเดลได้อย่างมีประสิทธิภาพ เทคนิคต่างๆ เช่น การปรับแต่งโดยมีผู้ดูแล (SFT) และ LoRA (Low-Rank Adaptation) ที่ประหยัดหน่วยความจำ สามารถนำไปใช้กับเช็คพอยต์โมเดล Gemma 4 ที่มีอยู่ใน Hugging Face ได้โดยตรง ซึ่งช่วยลดความจำเป็นในการแปลงที่ยุ่งยาก สิ่งนี้ช่วยให้สามารถปรับแต่งโมเดลได้ตั้งแต่เริ่มต้น เพื่อให้มั่นใจว่าโมเดลมีความเกี่ยวข้องและแม่นยำสูงสำหรับแอปพลิเคชันและชุดข้อมูลเฉพาะ เพิ่มประโยชน์ใช้สอยในอุตสาหกรรมต่างๆ"
question: "เงื่อนไขการอนุญาตให้ใช้เชิงพาณิชย์สำหรับโมเดล Gemma 4 เป็นอย่างไร และนักพัฒนาสามารถเข้าถึงได้ง่ายเพียงใด" answer: "โมเดล Gemma 4 สามารถเข้าถึงได้ง่ายสำหรับนักพัฒนาและองค์กรผ่านใบอนุญาต Apache 2.0 ที่เป็นมิตรต่อเชิงพาณิชย์ ใบอนุญาตโอเพนซอร์สนี้อนุญาตให้มีการใช้งาน การปรับเปลี่ยน และการเผยแพร่โมเดลในวงกว้าง ซึ่งอำนวยความสะดวกในการรวมเข้ากับผลิตภัณฑ์และบริการเชิงพาณิชย์ต่างๆ โดยไม่มีค่าธรรมเนียมใบอนุญาตที่จำกัด นอกจากนี้ NVIDIA ยังรับประกันความพร้อมใช้งานที่กว้างขวางทั่วทั้งแพลตฟอร์ม AI ทั้งหมด ตั้งแต่ศูนย์ข้อมูล Blackwell ไปจนถึงอุปกรณ์เอดจ์ Jetson นักพัฒนาสามารถเริ่มต้นได้ทันทีโดยการเข้าถึงเช็คพอยต์โมเดลบน Hugging Face การใช้เอกสารและบทแนะนำที่ครอบคลุมของ NVIDIA และการใช้ประโยชน์จากเครื่องมือเช่น vLLM, Ollama และ NeMo สำหรับการติดตั้งใช้งานและการปรับแต่ง ทำให้ AI ขั้นสูงพร้อมใช้งานสำหรับการสร้างนวัตกรรม"

ภูมิทัศน์ของปัญญาประดิษฐ์กำลังพัฒนาอย่างรวดเร็ว ด้วยความต้องการที่เพิ่มขึ้นในการติดตั้งใช้งานโมเดล AI ขั้นสูงไม่เพียงแค่ในศูนย์ข้อมูลบนคลาวด์เท่านั้น แต่ยังรวมถึงที่เอดจ์ของเครือข่ายและบนอุปกรณ์ของผู้ใช้โดยตรง การเปลี่ยนแปลงนี้ขับเคลื่อนโดยความต้องการความหน่วงที่ต่ำลง ความเป็นส่วนตัวที่เพิ่มขึ้น ต้นทุนการดำเนินงานที่ลดลง และความสามารถในการทำงานในสภาพแวดล้อมที่มีการเชื่อมต่อจำกัด เพื่อตอบสนองความต้องการที่สำคัญเหล่านี้ NVIDIA และ Google ได้ร่วมมือกันเปิดตัวโมเดล Gemma 4 แบบหลากหลายรูปแบบและหลายภาษาล่าสุด ซึ่งได้รับการออกแบบมาให้ปรับขนาดได้อย่างราบรื่นจากศูนย์ข้อมูล NVIDIA Blackwell ที่ทรงพลังที่สุด ไปจนถึงอุปกรณ์เอดจ์ Jetson ขนาดกะทัดรัด

โมเดลเหล่านี้แสดงถึงการก้าวกระโดดที่สำคัญในด้านประสิทธิภาพและความแม่นยำ ทำให้เป็นเครื่องมืออเนกประสงค์สำหรับงาน AI ทั่วไปที่หลากหลาย ตระกูล Gemma 4 พร้อมที่จะกำหนดนิยามใหม่ของการรวม AI เข้ากับแอปพลิเคชันในชีวิตประจำวัน โดยนำเสนอความสามารถที่ผลักดันขีดจำกัดของสิ่งที่เป็นไปได้ในการติดตั้งใช้งาน AI ในเครื่อง

Gemma 4: ก้าวหน้าด้วย AI หลายรูปแบบและหลายภาษา

Gemmaverse ได้ขยายตัวด้วยการเปิดตัวโมเดล Gemma 4 ใหม่สี่รุ่น โดยแต่ละรุ่นได้รับการออกแบบโดยคำนึงถึงสถานการณ์การติดตั้งใช้งานเฉพาะ ในขณะที่ยังคงนำเสนอชุดความสามารถที่แข็งแกร่ง โมเดลเหล่านี้ไม่ได้เป็นเพียงแค่เรื่องของขนาดเท่านั้น แต่เป็นเรื่องของการออกแบบที่ชาญฉลาด ซึ่งให้ประสิทธิภาพที่แข็งแกร่งในการแก้ปัญหา AI ที่หลากหลาย

ความสามารถหลักของโมเดล Gemma 4 ได้แก่:

การให้เหตุผล: ประสิทธิภาพที่ยอดเยี่ยมในงานการแก้ปัญหาที่ซับซ้อน ทำให้สามารถตัดสินใจได้อย่างซับซ้อนยิ่งขึ้น
การเขียนโค้ด: คุณสมบัติการสร้างโค้ดและการดีบักขั้นสูง ทำให้ขั้นตอนการทำงานของนักพัฒนามีความคล่องตัว
เอเจนต์: การสนับสนุนโดยกำเนิดสำหรับการใช้เครื่องมือที่มีโครงสร้าง อำนวยความสะดวกในการสร้างระบบ AI ที่มีลักษณะเป็นเอเจนต์ที่ทรงพลัง
ความสามารถด้านวิทัศน์ เสียง และวิดีโอ: การโต้ตอบแบบหลายรูปแบบที่หลากหลายสำหรับกรณีการใช้งาน เช่น การจดจำวัตถุ การรู้จำเสียงพูดอัตโนมัติ (ASR) ความเข้าใจเอกสาร และความเข้าใจวิดีโอ
อินพุตหลายรูปแบบที่สอดแทรก: ความสามารถในการผสมผสานข้อความและรูปภาพได้อย่างอิสระภายในพรอมต์เดียว ซึ่งนำเสนอการโต้ตอบที่เป็นธรรมชาติและครอบคลุมมากขึ้น
การสนับสนุนหลายภาษา: รองรับมากกว่า 35 ภาษาทันทีที่ใช้งาน โดยได้รับการฝึกอบรมล่วงหน้าในกว่า 140 ภาษา ซึ่งช่วยขยายการเข้าถึงทั่วโลก

ตระกูล Gemma 4 รวมถึงโมเดล Mixture-of-Experts (MoE) รุ่นแรกในซีรีส์ Gemma ซึ่งได้รับการปรับแต่งเพื่อประสิทธิภาพสูงสุด ที่น่าทึ่งคือ โมเดลทั้งสี่รุ่นสามารถทำงานบน NVIDIA H100 GPU เพียงตัวเดียวได้ แสดงให้เห็นถึงการออกแบบที่ได้รับการปรับแต่งมาอย่างดี โมเดล 31B และ 26B A4B เป็นโมเดลการให้เหตุผลที่มีประสิทธิภาพสูง เหมาะสำหรับทั้งสภาพแวดล้อมในเครื่องและศูนย์ข้อมูล ในขณะที่โมเดล E4B และ E2B ได้รับการออกแบบมาโดยเฉพาะสำหรับแอปพลิเคชันบนอุปกรณ์และมือถือ โดยต่อยอดจากมรดกของ Gemma 3n

ชื่อโมเดล	ประเภทสถาปัตยกรรม	พารามิเตอร์รวม	พารามิเตอร์ที่ทำงานอยู่หรือที่มีประสิทธิภาพ	ความยาวบริบทอินพุต (โทเค็น)	หน้าต่างเลื่อน (โทเค็น)	รูปแบบ
Gemma-4-31B	Dense Transformer	31B	—	256K	1024	ข้อความ
Gemma-4-26B-A4B	MoE – 128 Experts	26B	3.8B	256K	—	ข้อความ
Gemma-4-E4B	Dense Transformer	7.9B with embeddings	4.5B effective	128K	512	ข้อความ, เสียง, วิทัศน์, วิดีโอ
Gemma-4-E2B	Dense Transformer	5.1B with embeddings	2.3B effective	128K	512	ข้อความ, เสียง, วิทัศน์, วิดีโอ

ตารางที่ 1 ภาพรวมของตระกูลโมเดล Gemma 4 สรุปประเภทสถาปัตยกรรม ขนาดพารามิเตอร์ พารามิเตอร์ที่มีประสิทธิภาพ ความยาวบริบทที่รองรับ และรูปแบบที่ใช้งานได้ เพื่อช่วยให้นักพัฒนาเลือกโมเดลที่เหมาะสมสำหรับการติดตั้งใช้งานในศูนย์ข้อมูล เอดจ์ และบนอุปกรณ์

โมเดลเหล่านี้มีให้ใช้งานบน Hugging Face พร้อมเช็คพอยต์ BF16 สำหรับนักพัฒนาที่ใช้ NVIDIA Blackwell GPU มีเช็คพอยต์แบบควอนไทซ์ NVFP4 สำหรับ Gemma-4-31B ให้ใช้งานผ่าน NVIDIA Model Optimizer สำหรับใช้กับ vLLM ความแม่นยำ NVFP4 รักษาความแม่นยำที่เกือบจะเหมือนกับความแม่นยำ 8 บิต ในขณะที่ปรับปรุงประสิทธิภาพต่อวัตต์และลดต้นทุนต่อโทเค็นได้อย่างมาก ซึ่งเป็นสิ่งสำคัญสำหรับการติดตั้งใช้งานขนาดใหญ่

นำ AI สู่เอดจ์: การติดตั้งใช้งานบนอุปกรณ์ด้วยฮาร์ดแวร์ NVIDIA

เมื่อเวิร์กโฟลว์ AI และเอเจนต์ AI มีความสำคัญต่อการดำเนินงานประจำวันมากขึ้น ความสามารถในการรันโมเดลเหล่านี้ให้เกินกว่าสภาพแวดล้อมศูนย์ข้อมูลแบบเดิมจึงเป็นสิ่งสำคัญอย่างยิ่ง NVIDIA นำเสนอระบบนิเวศที่ครอบคลุมของระบบไคลเอ็นต์และเอดจ์ ตั้งแต่ gpus อันทรงพลังอย่าง RTX GPU ไปจนถึงอุปกรณ์ Jetson และ DGX Spark ที่มีความเชี่ยวชาญเฉพาะด้าน ซึ่งช่วยให้นักพัฒนามีความยืดหยุ่นที่จำเป็นในการปรับให้เหมาะสมกับต้นทุน ความหน่วง และความปลอดภัย

NVIDIA ได้ร่วมมือกับเฟรมเวิร์กการอนุมานชั้นนำ เช่น vLLM, Ollama และ llama.cpp เพื่อให้มั่นใจถึงประสบการณ์การติดตั้งใช้งานในเครื่องที่เหมาะสมที่สุดสำหรับโมเดล Gemma 4 นอกจากนี้ Unsloth ยังให้การสนับสนุนตั้งแต่เริ่มต้นด้วยโมเดลที่ได้รับการปรับแต่งและควอนไทซ์ ซึ่งช่วยให้การติดตั้งใช้งานในเครื่องมีประสิทธิภาพผ่าน Unsloth Studio ระบบสนับสนุนที่แข็งแกร่งนี้ช่วยให้นักพัฒนาสามารถติดตั้งใช้งาน AI ที่ซับซ้อนได้โดยตรงในจุดที่ต้องการมากที่สุด

	DGX Spark	Jetson	RTX / RTX PRO
กรณีการใช้งาน	การวิจัยและสร้างต้นแบบ AI	AI ที่เอดจ์และหุ่นยนต์	แอปพลิเคชันเดสก์ท็อปและการพัฒนา Windows
จุดเด่น	ชุดซอฟต์แวร์ NVIDIA AI ที่ติดตั้งไว้ล่วงหน้าและหน่วยความจำรวมขนาด 128 GB ที่ขับเคลื่อนการสร้างต้นแบบในเครื่อง การปรับแต่งโมเดล และเวิร์กโฟลว์ OpenClaw แบบโลคัลเต็มรูปแบบ	ความหน่วงเกือบเป็นศูนย์เนื่องจากคุณสมบัติทางสถาปัตยกรรม เช่น การโหลดพารามิเตอร์แบบมีเงื่อนไข และการฝังข้อมูลต่อเลเยอร์ที่สามารถแคชได้เพื่อการใช้งานหน่วยความจำที่เร็วขึ้นและลดลง ( ข้อมูลเพิ่มเติม)	ประสิทธิภาพที่ปรับให้เหมาะสมสำหรับการอนุมานในเครื่องสำหรับผู้สนใจทั่วไป ผู้สร้างสรรค์ และมืออาชีพ
คู่มือเริ่มต้นใช้งาน	DGX Spark Playbooks สำหรับ vLLM, Ollama, Unsloth และคู่มือการติดตั้งใช้งาน llama.cpp NeMo Automodel สำหรับคู่มือการปรับแต่งบน Spark	Jetson AI Lab สำหรับบทแนะนำและคอนเทนเนอร์ Gemma แบบกำหนดเอง	RTX AI Garage สำหรับคู่มือ Ollama และ llama.cpp เจ้าของ RTX Pro สามารถใช้ vLLM ได้เช่นกัน

ตารางที่ 2 การเปรียบเทียบตัวเลือกการติดตั้งใช้งานในเครื่องบนแพลตฟอร์ม NVIDIA โดยเน้นกรณีการใช้งานหลัก ความสามารถหลัก และทรัพยากรแนะนำสำหรับการเริ่มต้นใช้งานสำหรับระบบ DGX Spark, Jetson และ RTX / RTX PRO ที่รันโมเดล Gemma 4

การสร้างเวิร์กโฟลว์ AI ที่มีลักษณะเป็นเอเจนต์ที่ปลอดภัยและการติดตั้งใช้งานพร้อมสำหรับองค์กร

สำหรับนักพัฒนา AI และผู้ที่ชื่นชอบ NVIDIA DGX Spark ที่มาพร้อม GB10 Grace Blackwell Superchip และหน่วยความจำรวมขนาด 128 GB นำเสนอทรัพยากรที่ไม่มีใครเทียบได้ แพลตฟอร์มที่แข็งแกร่งนี้เหมาะสำหรับการรันโมเดล Gemma 4 31B ด้วยน้ำหนัก BF16 ซึ่งช่วยให้การสร้างต้นแบบและการสร้าง เวิร์กโฟลว์ AI ที่มีลักษณะเป็นเอเจนต์ที่ซับซ้อน มีประสิทธิภาพ ในขณะที่ยังคงรักษาการดำเนินการบนอุปกรณ์ที่เป็นส่วนตัวและปลอดภัย ระบบปฏิบัติการ DGX Linux และชุดซอฟต์แวร์ NVIDIA เต็มรูปแบบมอบสภาพแวดล้อมการพัฒนาที่ราบรื่น

เอนจิ้นการอนุมาน vLLM ซึ่งออกแบบมาสำหรับการให้บริการ LLM ที่มีปริมาณงานสูง ช่วยเพิ่มประสิทธิภาพและลดการใช้หน่วยความจำบน DGX Spark การรวมกันนี้เป็นแพลตฟอร์มประสิทธิภาพสูงสำหรับการติดตั้งใช้งานโมเดล Gemma 4 ที่ใหญ่ที่สุด นักพัฒนาสามารถใช้ประโยชน์จาก vLLM for Inference DGX Spark playbook หรือเริ่มต้นใช้งาน Ollama หรือ llama.cpp นอกจากนี้ NeMo Automodel ยังช่วยให้สามารถปรับแต่งโมเดลเหล่านี้ได้โดยตรงบน DGX Spark

สำหรับผู้ใช้ระดับองค์กร NVIDIA NIM นำเสนอเส้นทางสู่การติดตั้งใช้งานที่พร้อมสำหรับการผลิต นักพัฒนาสามารถสร้างต้นแบบ Gemma 4 31B โดยใช้ NIM API ที่โฮสต์โดย NVIDIA จาก NVIDIA API catalog สำหรับการผลิตเต็มรูปแบบ มีไมโครเซอร์วิส NIM ที่บรรจุและปรับแต่งไว้ล่วงหน้าให้บริการสำหรับการติดตั้งใช้งานแบบโฮสต์เองที่ปลอดภัย ซึ่งสนับสนุนโดยใบอนุญาต NVIDIA Enterprise License สิ่งนี้ช่วยให้มั่นใจว่าองค์กรสามารถติดตั้งใช้งานโซลูชัน AI ที่ทรงพลังได้อย่างมั่นใจ โดยตรงตามข้อกำหนดด้านความปลอดภัยและการปฏิบัติงานที่เข้มงวด

เสริมพลังเอเจนต์ AI ทางกายภาพด้วย NVIDIA Jetson

ความสามารถของเอเจนต์ AI ทางกายภาพสมัยใหม่กำลังก้าวหน้าอย่างรวดเร็ว ส่วนใหญ่เป็นผลมาจากโมเดล Gemma 4 ที่ผสานรวมเสียงที่ซับซ้อน การรับรู้หลายรูปแบบ และการให้เหตุผลเชิงลึก โมเดลขั้นสูงเหล่านี้ช่วยให้ระบบหุ่นยนต์สามารถก้าวข้ามการปฏิบัติงานที่เรียบง่าย ทำให้พวกเขามีความสามารถในการเข้าใจคำพูด ตีความบริบททางสายตา และให้เหตุผลอย่างชาญฉลาดก่อนที่จะดำเนินการ

บนแพลตฟอร์ม NVIDIA Jetson นักพัฒนาสามารถดำเนินการอนุมาน Gemma 4 ที่เอดจ์โดยใช้ llama.cpp และ vLLM ตัวอย่างเช่น Jetson Orin Nano รองรับโมเดล Gemma 4 E2B และ E4B ซึ่งอำนวยความสะดวกในการอนุมานหลายรูปแบบบนระบบขนาดเล็ก ระบบฝังตัว และระบบที่จำกัดพลังงาน ความสามารถในการปรับขนาดนี้ขยายไปทั่วทั้งแพลตฟอร์ม Jetson จนถึง Jetson Thor อันน่าเกรงขาม ซึ่งช่วยให้สามารถติดตั้งใช้งานโมเดลได้อย่างสม่ำเสมอโดยไม่ขึ้นอยู่กับขนาดฮาร์ดแวร์ สิ่งนี้มีความสำคัญสำหรับแอปพลิเคชันในด้านหุ่นยนต์ เครื่องจักรอัจฉริยะ และระบบอัตโนมัติทางอุตสาหกรรม ซึ่งประสิทธิภาพความหน่วงต่ำและความฉลาดบนอุปกรณ์เป็นสิ่งสำคัญยิ่ง นักพัฒนาที่สนใจสำรวจความสามารถเหล่านี้สามารถค้นหาบทแนะนำและคอนเทนเนอร์ Gemma แบบกำหนดเองได้บน Jetson AI Lab

การปรับแต่งและการเข้าถึงเชิงพาณิชย์ด้วย NVIDIA NeMo

เพื่อให้แน่ใจว่าโมเดล Gemma 4 สามารถปรับให้เข้ากับแอปพลิเคชันเฉพาะและชุดข้อมูลที่เป็นกรรมสิทธิ์ได้ NVIDIA นำเสนอความสามารถในการปรับแต่งโมเดลที่แข็งแกร่งผ่าน เฟรมเวิร์ก NVIDIA NeMo โดยเฉพาะอย่างยิ่งไลบรารี NeMo Automodel ได้รวมความง่ายในการใช้งานของ PyTorch ดั้งเดิมเข้ากับประสิทธิภาพที่ปรับให้เหมาะสม ทำให้กระบวนการปรับแต่งสามารถเข้าถึงได้และมีประสิทธิภาพ

นักพัฒนาสามารถใช้ประโยชน์จากเทคนิคต่างๆ เช่น การปรับแต่งโดยมีผู้ดูแล (SFT) และ LoRA (Low-Rank Adaptation) ที่ประหยัดหน่วยความจำ เพื่อดำเนินการปรับแต่งโมเดลตั้งแต่เริ่มต้น กระบวนการนี้เริ่มต้นโดยตรงจากเช็คพอยต์โมเดล Gemma 4 ที่มีอยู่บน Hugging Face ซึ่งช่วยลดความจำเป็นในขั้นตอนการแปลงที่ยุ่งยาก ความยืดหยุ่นนี้ช่วยให้องค์กรและนักวิจัยสามารถเติมเต็มโมเดล Gemma 4 ด้วยความรู้เฉพาะโดเมน ทำให้มั่นใจได้ถึงความแม่นยำและความเกี่ยวข้องสูงสำหรับงานเฉพาะทาง

โมเดล Gemma 4 มีพร้อมใช้งานบนแพลตฟอร์ม NVIDIA AI ทั้งหมด และนำเสนอภายใต้ใบอนุญาต Apache 2.0 ที่เป็นมิตรต่อเชิงพาณิชย์ ใบอนุญาตโอเพนซอร์สนี้ช่วยอำนวยความสะดวกในการนำไปใช้ในวงกว้างและการรวมเข้ากับผลิตภัณฑ์และบริการเชิงพาณิชย์ ทำให้นักพัฒนาทั่วโลกสามารถสร้างสรรค์นวัตกรรมด้วย AI ที่ล้ำสมัย ตั้งแต่ประสิทธิภาพของ Blackwell ไปจนถึงความแพร่หลายของแพลตฟอร์ม Jetson Gemma 4 พร้อมที่จะนำ AI ขั้นสูงเข้าใกล้กับนักพัฒนาและอุปกรณ์ทุกเครื่องมากขึ้น