Ландшафт искусственного интеллекта стремительно развивается, с растущим спросом на развертывание передовых моделей ИИ не только в облачных центрах обработки данных, но и на самой периферии сетей и непосредственно на пользовательских устройствах. Этот сдвиг обусловлен необходимостью снижения задержек, повышения конфиденциальности, сокращения эксплуатационных расходов и способности работать в средах с ограниченными возможностями подключения. Отвечая этим критически важным требованиям, NVIDIA и Google в сотрудничестве представили новейшие мультимодальные и многоязычные модели Gemma 4, разработанные для бесшовного масштабирования от самых мощных центров обработки данных NVIDIA Blackwell до компактных периферийных устройств Jetson.
Эти модели представляют собой значительный прорыв в эффективности и точности, что делает их универсальными инструментами для широкого спектра распространенных задач ИИ. Семейство Gemma 4 призвано переосмыслить то, как ИИ интегрируется в повседневные приложения, предлагая возможности, которые расширяют границы возможного в локальном развертывании ИИ.
Gemma 4: Развитие мультимодального и многоязычного ИИ
Вселенная Gemma расширилась с появлением четырех новых моделей Gemma 4, каждая из которых разработана с учетом конкретных сценариев развертывания, предлагая при этом надежный набор возможностей. Эти модели — это не просто размер; это интеллектуальный дизайн, обеспечивающий высокую производительность в решении различных задач ИИ.
Основные возможности моделей Gemma 4 включают:
- Рассуждение: Исключительная производительность в решении сложных задач, позволяющая принимать более изощренные решения.
- Кодирование: Расширенные функции генерации кода и отладки, оптимизирующие рабочие процессы разработчиков.
- Агенты: Встроенная поддержка структурированного использования инструментов, облегчающая создание мощных агентных систем ИИ.
- Возможности зрения, аудио и видео: Богатые мультимодальные взаимодействия для таких сценариев использования, как распознавание объектов, автоматическое распознавание речи (ASR), интеллектуальная обработка документов и видео.
- Чередующийся мультимодальный ввод: Возможность свободно смешивать текст и изображения в одном запросе, предлагая более естественное и всестороннее взаимодействие.
- Многоязыковая поддержка: Поддержка более 35 языков "из коробки", с предварительным обучением на более чем 140 языках, расширяющая глобальную доступность.
Семейство Gemma 4 включает первую модель "смеси экспертов" (MoE) в серии Gemma, оптимизированную для эффективности. Примечательно, что все четыре модели могут уместиться на одном графическом процессоре NVIDIA H100, что демонстрирует их оптимизированный дизайн. Варианты 31B и 26B A4B представляют собой высокопроизводительные модели рассуждения, подходящие как для локальных сред, так и для центров обработки данных, в то время как модели E4B и E2B специально адаптированы для приложений на устройствах и мобильных платформах, развивая наследие Gemma 3n.
| Название модели | Тип архитектуры | Общее количество параметров | Активные или эффективные параметры | Длина входного контекста (токены) | Скользящее окно (токены) | Модальности |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Плотный трансформер | 31B | — | 256K | 1024 | Текст |
| Gemma-4-26B-A4B | MoE – 128 экспертов | 26B | 3.8B | 256K | — | Текст |
| Gemma-4-E4B | Плотный трансформер | 7.9B с эмбеддингами | 4.5B эффективных | 128K | 512 | Текст, Аудио, Зрение, Видео |
| Gemma-4-E2B | Плотный трансформер | 5.1B с эмбеддингами | 2.3B эффективных | 128K | 512 | Текст, Аудио, Зрение, Видео |
Таблица 1. Обзор семейства моделей Gemma 4, суммирующий типы архитектур, размеры параметров, эффективные параметры, поддерживаемые длины контекста и доступные модальности, чтобы помочь разработчикам выбрать правильную модель для развертывания в центре обработки данных, на периферии и на устройствах.
Эти модели доступны на Hugging Face с контрольными точками BF16. Для разработчиков, использующих графические процессоры NVIDIA Blackwell, квантованная контрольная точка NVFP4 для Gemma-4-31B доступна через NVIDIA Model Optimizer для использования с vLLM. Точность NVFP4 поддерживает практически идентичную точность 8-битной, при этом значительно улучшая производительность на ватт и снижая стоимость за токен, что критически важно для крупномасштабных развертываний.
Приближение ИИ к периферии: Развертывание на устройствах с оборудованием NVIDIA
Поскольку рабочие процессы и агенты ИИ становятся все более неотъемлемой частью повседневных операций, возможность запускать эти модели за пределами традиционных сред центров обработки данных имеет первостепенное значение. NVIDIA предлагает комплексную экосистему клиентских и периферийных систем, от мощных графических процессоров, таких как RTX GPUs, до специализированных устройств Jetson и DGX Spark, предоставляя разработчикам гибкость, необходимую для оптимизации по стоимости, задержке и безопасности.
NVIDIA сотрудничала с ведущими фреймворками для инференса, такими как vLLM, Ollama и llama.cpp, чтобы обеспечить оптимальный опыт локального развертывания моделей Gemma 4. Кроме того, Unsloth предоставляет поддержку с первого дня с оптимизированными и квантованными моделями, обеспечивая эффективное локальное развертывание через Unsloth Studio. Эта надежная система поддержки позволяет разработчикам развертывать сложный ИИ непосредственно там, где он наиболее необходим.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Вариант использования | Исследования и прототипирование ИИ | Периферийный ИИ и робототехника | Настольные приложения и разработка под Windows |
| Ключевые особенности | Предустановленный программный стек NVIDIA AI и 128 ГБ унифицированной памяти обеспечивают локальное прототипирование, донастройку и полностью локальные рабочие процессы OpenClaw | Почти нулевая задержка благодаря архитектурным особенностям, таким как условная загрузка параметров и эмбеддинги для каждого слоя, которые могут быть кэшированы для более быстрого использования и снижения потребления памяти ( подробнее) | Оптимизированная производительность для локального инференса для любителей, создателей контента и профессионалов |
| Руководство по началу работы | Руководства по DGX Spark для развертывания vLLM, Ollama, Unsloth и llama.cpp NeMo Automodel для руководства по донастройке на Spark | Лаборатория ИИ Jetson для учебных пособий и пользовательских контейнеров Gemma | RTX AI Garage для руководств по Ollama и llama.cpp. Владельцы RTX Pro также могут использовать vLLM. |
Таблица 2. Сравнение вариантов локального развертывания на платформах NVIDIA, освещающее основные варианты использования, ключевые возможности и рекомендуемые ресурсы для начала работы с системами DGX Spark, Jetson и RTX / RTX PRO, работающими с моделями Gemma 4.
Создание безопасных агентных рабочих процессов и развертываний, готовых к корпоративному использованию
Для разработчиков и энтузиастов ИИ NVIDIA DGX Spark, оснащенный суперчипом GB10 Grace Blackwell и 128 ГБ унифицированной памяти, предлагает беспрецедентные ресурсы. Эта надежная платформа идеально подходит для запуска модели Gemma 4 31B с весами BF16, обеспечивая эффективное прототипирование и создание сложных агентных рабочих процессов ИИ, при этом гарантируя частное и безопасное выполнение на устройстве. Операционная система DGX Linux и полный программный стек NVIDIA обеспечивают бесшовную среду разработки.
Механизм инференса vLLM, разработанный для обслуживания больших языковых моделей (БММ) с высокой пропускной способностью, максимизирует эффективность и минимизирует использование памяти на DGX Spark. Эта комбинация обеспечивает высокопроизводительную платформу для развертывания самых больших моделей Gemma 4. Разработчики могут использовать руководство по vLLM для инференса на DGX Spark или начать работу с Ollama или llama.cpp. Кроме того, NeMo Automodel позволяет донастраивать эти модели непосредственно на DGX Spark.
Для корпоративных пользователей NVIDIA NIM предлагает путь к развертыванию, готовому к производству. Разработчики могут прототипировать Gemma 4 31B, используя размещенный NVIDIA API NIM из каталога API NVIDIA. Для полномасштабного производства доступны предварительно упакованные и оптимизированные микросервисы NIM для безопасного, самостоятельно размещаемого развертывания, поддерживаемые корпоративной лицензией NVIDIA. Это гарантирует, что предприятия могут уверенно развертывать мощные решения ИИ, соответствующие строгим требованиям безопасности и эксплуатации.
Расширение возможностей физических агентов ИИ с помощью NVIDIA Jetson
Возможности современных физических агентов ИИ быстро развиваются, в значительной степени благодаря моделям Gemma 4, интегрирующим сложную аудио-, мультимодальную перцепцию и глубокое рассуждение. Эти передовые модели позволяют робототехническим системам выйти за рамки простого выполнения задач, предоставляя им способность понимать речь, интерпретировать визуальный контекст и разумно рассуждать перед действием.
На платформах NVIDIA Jetson разработчики могут выполнять инференс Gemma 4 на периферии, используя llama.cpp и vLLM. Jetson Orin Nano, например, поддерживает варианты Gemma 4 E2B и E4B, облегчая мультимодальный инференс на малых, встроенных и энергоэффективных системах. Эта возможность масштабирования распространяется на всю платформу Jetson, вплоть до мощного Jetson Thor, что позволяет единообразно развертывать модели независимо от аппаратной конфигурации. Это крайне важно для приложений в робототехнике, умных машинах и промышленной автоматизации, где низкая задержка и интеллект на устройстве имеют первостепенное значение. Разработчики, заинтересованные в изучении этих возможностей, могут найти учебные пособия и пользовательские контейнеры Gemma на Jetson AI Lab.
Настройка и коммерческая доступность с NVIDIA NeMo
Чтобы гарантировать адаптацию моделей Gemma 4 к конкретным приложениям и проприетарным наборам данных, NVIDIA предлагает надежные возможности донастройки через фреймворк NVIDIA NeMo. В частности, библиотека NeMo Automodel сочетает простоту использования нативного PyTorch с оптимизированной производительностью, делая процесс настройки доступным и эффективным.
Разработчики могут использовать такие методы, как контролируемая донастройка (SFT) и ресурсоэффективная LoRA (Low-Rank Adaptation), для выполнения донастройки 'с первого дня'. Этот процесс начинается непосредственно с контрольных точек моделей Gemma 4, доступных на Hugging Face, устраняя необходимость в громоздких шагах преобразования. Такая гибкость позволяет предприятиям и исследователям наделять модели Gemma 4 предметно-ориентированными знаниями, обеспечивая высокую точность и релевантность для специализированных задач.
Модели Gemma 4 легко доступны на всей платформе NVIDIA AI и предлагаются по коммерчески дружественной лицензии Apache 2.0. Эта открытая лицензия способствует широкому внедрению и интеграции в коммерческие продукты и услуги, позволяя разработчикам по всему миру внедрять инновации с помощью передового ИИ. От производительности Blackwell до повсеместного распространения платформ Jetson, Gemma 4 призвана приблизить передовой ИИ к каждому разработчику и каждому устройству.
Первоисточник
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Часто задаваемые вопросы
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Будьте в курсе
Получайте последние новости ИИ на почту.
