Революция в поиске видео с помощью мультимодальных эмбеддингов
Индустрия медиа и развлечений переполнена огромными объемами видеоконтента. От архивных материалов до ежедневных загрузок — такой колоссальный объем делает традиционные методы обнаружения контента (ручное тегирование и поиск по ключевым словам) все более неэффективными и часто неточными. Эти устаревшие подходы с трудом улавливают всю полноту и тонкий контекст, заложенный в видео, что приводит к упущенным возможностям для повторного использования контента, ускорения производства и улучшения пользовательского опыта.
Наступает эра мультимодальных эмбеддингов. AWS разрабатывает решение, которое преодолевает эти ограничения, обеспечивая возможности семантического поиска по колоссальным видеоданным. Используя мощь моделей Amazon Nova и Amazon OpenSearch Service, создатели и дистрибьюторы контента могут выйти за рамки поверхностных ключевых слов, чтобы по-настоящему понимать и получать доступ к своим медиатекам. Этот инновационный подход позволяет запросам на естественном языке проникать в глубины визуальной и слуховой информации, обеспечивая беспрецедентную точность в обнаружении контента.
Демонстрируя эту возможность в впечатляющем масштабе, AWS обработала 792 270 видео из AWS Open Data Registry, охватывающих ошеломляющие 8 480 часов видеоконтента. Это амбициозное предприятие, на которое ушло всего 41 час для обработки более 30,5 миллионов секунд видео, подчеркивает масштабируемость и эффективность этого подхода, основанного на ИИ. Стоимость за первый год, включая разовую загрузку и ежегодное использование OpenSearch Service, была оценена как весьма конкурентоспособная: от 23 632 долларов США (с зарезервированными экземплярами OpenSearch Service) до 27 328 долларов США (с тарифом по требованию). Такое решение фундаментально преобразует то, как медиакомпании взаимодействуют со своими цифровыми активами, открывая новые возможности для монетизации контента и рабочих процессов производства. Этот парадигматический сдвиг в сторону семантического понимания является критически важным развитием для Корпоративного ИИ в медиаиндустрии.
Понимание архитектуры масштабируемого мультимодального озера данных ИИ
По своей сути, эта мощная мультимодальная система поиска видео построена на двух взаимосвязанных рабочих процессах: загрузке видео и поиске. Эти компоненты бесшовно интегрируются для создания озера данных ИИ, которое понимает и делает доступными для поиска сложные детали видеоконтента.
Конвейер загрузки видео
Конвейер загрузки разработан для параллельной обработки и эффективности. Он использует четыре экземпляра Amazon EC2 c7i.48xlarge, управляя до 600 параллельными рабочими процессами для достижения скорости обработки 19 400 видео в час. Видео, изначально загруженные в Amazon S3, затем обрабатываются асинхронным API Amazon Nova Multimodal Embeddings. Этот API интеллектуально сегментирует видео на оптимальные 15-секундные фрагменты — баланс между захватом значительных изменений сцены и управлением объемом генерируемых эмбеддингов. Затем каждый сегмент преобразуется в 1024-мерный эмбеддинг, представляющий его комбинированные аудиовизуальные признаки. Хотя 3072-мерные эмбеддинги предлагают более высокую точность, 1024-мерный вариант обеспечивает 3-кратную экономию затрат на хранение с минимальным влиянием на точность для этого приложения, что делает его прагматичным выбором для масштабирования.
Для дальнейшего улучшения возможностей поиска используется Amazon Nova Pro (или более новая, более экономичная Nova 2 Lite) для генерации 10-15 описательных тегов для каждого видео из предопределенной таксономии. Этот двойной подход гарантирует, что контент может быть найден как с помощью семантического сходства, так и с помощью традиционного сопоставления по ключевым словам. Эти эмбеддинги хранятся в индексе OpenSearch k-NN, оптимизированном для поиска векторного сходства, в то время как описательные теги индексируются в отдельном текстовом индексе. Такое разделение обеспечивает гибкие и эффективные запросы. Конвейер управляет ограничениями параллелизма Bedrock (30 одновременных заданий на аккаунт) с помощью надежной очереди заданий и механизма опроса, обеспечивая непрерывную и соответствующую требованиям обработку.
Ниже представлено визуальное изображение этого сложного процесса загрузки:

Рисунок 1: Конвейер загрузки видео, показывающий поток данных из хранилища видео S3 через Nova Multimodal Embeddings и Nova Pro в двойные индексы OpenSearch
Расширение возможностей разнообразного поиска видео
Архитектура поиска разработана для универсальности, предлагая несколько режимов обнаружения контента:
-
Поиск видео по тексту: Пользователи могут вводить запросы на естественном языке, такие как 'съемка города ночью с дрона' или 'крупный план шеф-повара, готовящего изысканное блюдо'. Система преобразует эти запросы в эмбеддинги, а затем использует индекс OpenSearch k-NN для поиска видеосегментов или целых видео, которые семантически соответствуют описанию, даже если точных слов нет в метаданных. Это идеально подходит для интуитивного обнаружения контента и раскадровки.
-
Поиск видео по видео: Для сценариев, когда у пользователя есть видеоклип, и он хочет найти похожий контент, этот режим превосходен. Путем прямого сравнения эмбеддингов входного видео с эмбеддингами в индексе OpenSearch k-NN система может идентифицировать визуально и аудиально аналогичный контент. Это бесценно для определения дополнительных кадров (B-roll), обеспечения единообразия контента или обнаружения производных работ.
-
Гибридный поиск: Сочетая лучшее из обоих миров, гибридный поиск интегрирует векторное сходство с традиционным сопоставлением по ключевым словам. Предлагаемое решение использует взвешенный подход (например, 70% векторного сходства и 30% сопоставления по ключевым словам). Это обеспечивает высокую точность и релевантность, позволяя конкретным метаданным направлять поиск, в то время как семантическое понимание обеспечивает широкие контекстуальные совпадения. Этот подход особенно эффективен для сложных запросов, которые выигрывают как от точных тегов, так и от концептуального понимания.

Рисунок 2: Архитектура поиска видео, демонстрирующая три режима поиска – поиск видео по тексту, поиск видео по видео и гибридный поиск, сочетающий k-NN и BM25
Экономичное развертывание и предварительные условия
Развертывание такого сложного озера данных ИИ требует тщательного рассмотрения инфраструктуры и затрат, которые AWS оптимизировала для повышения эффективности. Общая стоимость обработки обширных наборов данных, примерно 8 480 часов видеоконтента, составила ориентировочно 27 328 долларов США (с OpenSearch по требованию) или 23 632 долларов США (с зарезервированными экземплярами OpenSearch Service) за первый год.
Распределение затрат на загрузку показывает основные факторы, влияющие на стоимость:
- Вычислительные ресурсы Amazon EC2: $421 (4 спотовых экземпляра c7i.48xlarge на 41 час)
- Amazon Bedrock Nova Multimodal Embeddings: $17 096 (30,5 млн секунд по цене $0,00056/секунду за пакетную обработку)
- Тегирование Nova Pro: $571 (792 тыс. видео, в среднем около 600 токенов/видео)
- Amazon OpenSearch Service: $9 240 (годовая оплата по требованию) или $5 544 (годовая оплата по резервированию)
Предварительные условия для реализации: Для воспроизведения или адаптации этого решения вам потребуется:
- Учетная запись AWS с доступом к Amazon Bedrock в регионе
us-east-1. - Python 3.9 или новее.
- Интерфейс командной строки AWS (AWS CLI), настроенный с соответствующими учетными данными.
- Домен Amazon OpenSearch Service (рекомендуется r6g.large или больше), версии 2.11 или новее, с включенным плагином k-NN.
- Бакет Amazon S3 для хранения видео и выходных данных эмбеддингов.
- Разрешения AWS Identity and Access Management (IAM) для Amazon Bedrock, OpenSearch Service и Amazon S3.
Решение использует конкретные сервисы и модели AWS:
- Amazon Bedrock с
amazon.nova-2-multimodal-embeddings-v1:0для эмбеддингов. - Amazon Bedrock с
us.amazon.nova-pro-v1:0илиus.amazon.nova-2-lite-v1:0для тегирования. - Amazon OpenSearch Service 2.11+ с плагином k-NN.
- Amazon S3 для хранения.
Реализация решения для мультимодального поиска видео
Начало работы с этой архитектурой предполагает структурированный подход к настройке вашей среды AWS. Первым важным шагом является установка необходимых разрешений.
Шаг 1: Создание ролей и политик IAM
Вам потребуется создать роль IAM, которая предоставит вашему приложению или сервису полномочия взаимодействовать с различными компонентами AWS. Эта роль должна включать разрешения на вызов моделей Amazon Bedrock (как для генерации эмбеддингов, так и для тегирования), запись данных в индексы OpenSearch и выполнение операций чтения/записи в корзинах Amazon S3, где хранятся ваш видеоконтент и обработанные результаты.
Вот пример базовой структуры политики IAM:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Эта политика предоставляет специфические разрешения, необходимые для работы конвейера. Не забудьте заменить заполнители, такие как your-video-bucket и your-opensearch-domain, на фактические имена ваших ресурсов. После настройки IAM вы приступите к конфигурированию ваших бакетов S3, настройке домена OpenSearch Service с включенным k-NN и разработке логики оркестрации, которая использует API Bedrock для загрузки. Эта надежная структура гарантирует, что медиа- и развлекательные компании смогут эффективно управлять, обнаруживать и монетизировать свои постоянно растущие библиотеки контента, что знаменует собой значительный скачок в интеллектуальном управлении контентом. Это комплексное решение является примером того, как современные возможности ИИ, особенно в мультимодальном понимании, переопределяют отраслевые стандарты для управления контентом и доступности. Это свидетельство силы интеграции передовых моделей ИИ с масштабируемой облачной инфраструктурой для решения реальных проблем Корпоративного ИИ, способствуя таким достижениям, как те, что наблюдаются в Агентских рабочих процессах ИИ.
Часто задаваемые вопросы
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Будьте в курсе
Получайте последние новости ИИ на почту.
