Ландшафт штучного інтелекту стрімко розвивається, зростає попит на розгортання передових моделей ШІ не лише в хмарних центрах обробки даних, але й на самому краю мереж та безпосередньо на пристроях користувачів. Цей зсув зумовлений потребою в меншій затримці, покращеній конфіденційності, знижених експлуатаційних витратах та здатності працювати в середовищах з обмеженим підключенням. Відповідаючи на ці критичні вимоги, NVIDIA та Google співпрацювали, щоб представити найновіші мультимодальні та багатомовні моделі Gemma 4, розроблені для безперебійного масштабування від найпотужніших центрів обробки даних NVIDIA Blackwell до компактних периферійних пристроїв Jetson.
Ці моделі є значним стрибком в ефективності та точності, що робить їх універсальними інструментами для широкого спектру поширених завдань ШІ. Сімейство Gemma 4 має на меті переосмислити спосіб інтеграції ШІ в повсякденні програми, пропонуючи можливості, які розширюють межі можливого в локальному розгортанні ШІ.
Gemma 4: Розвиток мультимодального та багатомовного ШІ
Gemmaverse розширився з впровадженням чотирьох нових моделей Gemma 4, кожна з яких розроблена з урахуванням конкретних сценаріїв розгортання, пропонуючи при цьому надійний набір можливостей. Ці моделі не просто про розмір; вони про інтелектуальний дизайн, що забезпечує високу продуктивність у різноманітних завданнях ШІ.
Основні можливості моделей Gemma 4 включають:
- Міркування: Виняткова продуктивність у складних завданнях з вирішення проблем, що забезпечує більш складне прийняття рішень.
- Кодування: Розширені функції генерації та налагодження коду, що оптимізують робочі процеси розробників.
- Агенти: Вбудована підтримка структурованого використання інструментів, що полегшує створення потужних агентних систем ШІ.
- Можливості зору, аудіо та відео: Багаті мультимодальні взаємодії для таких випадків використання, як розпізнавання об'єктів, автоматичне розпізнавання мови (ASR), інтелект документів та відео.
- Чергування мультимодального вводу: Можливість вільно поєднувати текст та зображення в одному запиті, пропонуючи більш природну та всебічну взаємодію.
- Багатомовна підтримка: Готова підтримка понад 35 мов, з попереднім навчанням на більш ніж 140 мовах, що розширює глобальну доступність.
Сімейство Gemma 4 включає першу модель Mixture-of-Experts (MoE) у серії Gemma, оптимізовану для ефективності. Варто зазначити, що всі чотири моделі можуть поміститися на одному NVIDIA H100 GPU, демонструючи їх оптимізований дизайн. Варіанти 31B та 26B A4B є високопродуктивними моделями міркувань, придатними як для локальних середовищ, так і для центрів обробки даних, тоді як моделі E4B та E2B спеціально адаптовані для застосунків на пристроях та мобільних пристроях, базуючись на спадщині Gemma 3n.
| Назва моделі | Тип архітектури | Загальна кількість параметрів | Активні або ефективні параметри | Довжина вхідного контексту (токенів) | Ковзне вікно (токенів) | Модальності |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Щільний трансформер | 31B | — | 256K | 1024 | Текст |
| Gemma-4-26B-A4B | MoE – 128 експертів | 26B | 3.8B | 256K | — | Текст |
| Gemma-4-E4B | Щільний трансформер | 7.9B with embeddings | 4.5B effective | 128K | 512 | Текст, Аудіо, Зір, Відео |
| Gemma-4-E2B | Щільний трансформер | 5.1B with embeddings | 2.3B effective | 128K | 512 | Текст, Аудіо, Зір, Відео |
Таблиця 1. Огляд сімейства моделей Gemma 4, що узагальнює типи архітектур, розміри параметрів, ефективні параметри, підтримувані довжини контексту та доступні модальності, щоб допомогти розробникам вибрати правильну модель для розгортання в центрах обробки даних, на периферійних та пристроях.
Ці моделі доступні на Hugging Face з контрольними точками BF16. Для розробників, які використовують NVIDIA Blackwell GPU, квантована контрольна точка NVFP4 для Gemma-4-31B доступна через NVIDIA Model Optimizer для використання з vLLM. Точність NVFP4 зберігає майже ідентичну точність до 8-бітної, одночасно значно покращуючи продуктивність на ват і знижуючи вартість на токен, що є критично важливим для великомасштабних розгортань.
Перенесення ШІ на периферію: Розгортання на пристроях з апаратним забезпеченням NVIDIA
Оскільки робочі процеси ШІ та агенти стають все більш невід'ємними частинами повсякденних операцій, можливість запускати ці моделі за межами традиційних середовищ центрів обробки даних є першочерговою. NVIDIA пропонує комплексну екосистему клієнтських та периферійних систем, від потужних графічних процесорів, таких як RTX GPU, до спеціалізованих пристроїв Jetson та DGX Spark, надаючи розробникам гнучкість, необхідну для оптимізації витрат, затримки та безпеки.
NVIDIA співпрацювала з провідними фреймворками для висновку, такими як vLLM, Ollama та llama.cpp, щоб забезпечити оптимальний досвід локального розгортання для моделей Gemma 4. Крім того, Unsloth надає підтримку з першого дня з оптимізованими та квантованими моделями, що дозволяє ефективне локальне розгортання через Unsloth Studio. Ця надійна система підтримки дозволяє розробникам розгортати складний ШІ безпосередньо там, де це найбільше потрібно.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Варіант використання | Дослідження та прототипування ШІ | Периферійний ШІ та робототехніка | Настільні додатки та розробка під Windows |
| Ключові особливості | Попередньо встановлений програмний стек NVIDIA AI та 128 ГБ уніфікованої пам'яті живлять локальне прототипування, донавчання та повністю локальні робочі процеси OpenClaw | Майже нульова затримка завдяки архітектурним особливостям, таким як умовне завантаження параметрів та вбудовування для кожного шару, які можуть бути кешовані для швидшого та зменшеного використання пам'яті ( більше інформації) | Оптимізована продуктивність для локального висновку для любителів, творців та професіоналів |
| Посібник для початку роботи | DGX Spark Playbooks для посібників з розгортання vLLM, Ollama, Unsloth та llama.cpp NeMo Automodel для посібника з донавчання на Spark | Jetson AI Lab для навчальних посібників та спеціальних контейнерів Gemma | RTX AI Garage для посібників Ollama та llama.cpp. Власники RTX Pro також можуть використовувати vLLM. |
Таблиця 2. Порівняння варіантів локального розгортання на платформах NVIDIA, що висвітлює основні варіанти використання, ключові можливості та рекомендовані ресурси для початку роботи для систем DGX Spark, Jetson та RTX / RTX PRO, що працюють з моделями Gemma 4.
Створення безпечних агентних робочих процесів та розгортання, готових до використання на підприємствах
Для розробників ШІ та ентузіастів NVIDIA DGX Spark, що оснащений суперчіпом GB10 Grace Blackwell та 128 ГБ уніфікованої пам'яті, пропонує неперевершені ресурси. Ця надійна платформа ідеально підходить для запуску моделі Gemma 4 31B з вагою BF16, забезпечуючи ефективне прототипування та створення складних агентних робочих процесів ШІ, забезпечуючи при цьому приватне та безпечне виконання на пристрої. Операційна система DGX Linux та повний програмний стек NVIDIA забезпечують безперебійне середовище розробки.
Механізм висновку vLLM, розроблений для обслуговування LLM з високою пропускною здатністю, максимізує ефективність та мінімізує використання пам'яті на DGX Spark. Ця комбінація забезпечує високопродуктивну платформу для розгортання найбільших моделей Gemma 4. Розробники можуть використовувати посібник vLLM для висновку на DGX Spark або розпочати роботу з Ollama чи llama.cpp. Крім того, NeMo Automodel дозволяє донавчати ці моделі безпосередньо на DGX Spark.
Для корпоративних користувачів NVIDIA NIM пропонує шлях до готового для виробництва розгортання. Розробники можуть прототипувати Gemma 4 31B за допомогою NVIDIA-хостованого NIM API з каталогу API NVIDIA. Для повномасштабного виробництва доступні попередньо упаковані та оптимізовані мікросервіси NIM для безпечного, самостійно розміщеного розгортання, що підтримується ліцензією NVIDIA Enterprise. Це гарантує, що підприємства можуть впевнено розгортати потужні рішення ШІ, відповідаючи суворим вимогам безпеки та експлуатації.
Розширення можливостей фізичних агентів ШІ за допомогою NVIDIA Jetson
Можливості сучасних фізичних агентів ШІ швидко розвиваються, значною мірою завдяки інтеграції моделями Gemma 4 складного аудіо, мультимодального сприйняття та глибокого міркування. Ці передові моделі дозволяють робототехнічним системам вийти за межі спрощеного виконання завдань, надаючи їм можливість розуміти мову, інтерпретувати візуальний контекст та інтелектуально міркувати перед дією.
На платформах NVIDIA Jetson розробники можуть здійснювати висновок Gemma 4 на периферії за допомогою llama.cpp та vLLM. Jetson Orin Nano, наприклад, підтримує варіанти Gemma 4 E2B та E4B, сприяючи мультимодальному висновку на малих, вбудованих системах з обмеженим живленням. Ця можливість масштабування поширюється на всю платформу Jetson, аж до потужного Jetson Thor, дозволяючи послідовне розгортання моделі незалежно від апаратного сліду. Це має вирішальне значення для застосувань у робототехніці, розумних машинах та промисловій автоматизації, де продуктивність з низькою затримкою та інтелект на пристрої є першочерговими. Розробники, зацікавлені у вивченні цих можливостей, можуть знайти навчальні посібники та спеціальні контейнери Gemma на Jetson AI Lab.
Налаштування та комерційна доступність з NVIDIA NeMo
Щоб гарантувати, що моделі Gemma 4 можна адаптувати до конкретних застосунків та власних наборів даних, NVIDIA пропонує надійні можливості донавчання через фреймворк NVIDIA NeMo. Бібліотека NeMo Automodel, зокрема, поєднує простоту використання рідного PyTorch з оптимізованою продуктивністю, роблячи процес налаштування доступним та ефективним.
Розробники можуть використовувати такі методи, як кероване донавчання (SFT) та пам'ятно-ефективне LoRA (Low-Rank Adaptation), для здійснення донавчання з 'нульового дня'. Цей процес починається безпосередньо з контрольних точок моделі Gemma 4, доступних на Hugging Face, усуваючи необхідність у громіздких кроках перетворення. Ця гнучкість дозволяє підприємствам та дослідникам наділяти моделі Gemma 4 знаннями, специфічними для домену, забезпечуючи високу точність та релевантність для спеціалізованих завдань.
Моделі Gemma 4 легко доступні на всій платформі NVIDIA AI і пропонуються за комерційно привабливою ліцензією Apache 2.0. Ця ліцензія з відкритим вихідним кодом сприяє широкому впровадженню та інтеграції в комерційні продукти та послуги, надаючи розробникам по всьому світу можливість впроваджувати інновації за допомогою передового ШІ. Від продуктивності Blackwell до повсюдності платформ Jetson, Gemma 4 покликана наблизити передовий ШІ до кожного розробника та кожного пристрою.
Першоджерело
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Поширені запитання
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Будьте в курсі
Отримуйте найсвіжіші новини ШІ на пошту.
