Mise à l'échelle des embeddings multimodaux : Lac de données IA pour les médias et le divertissement

Révolutionner la recherche vidéo avec les embeddings multimodaux

L'industrie des médias et du divertissement regorge de vastes océans de contenu vidéo. Des archives aux mises en ligne quotidiennes, le volume colossal rend les méthodes traditionnelles de découverte de contenu — balisage manuel et recherches basées sur des mots-clés — de plus en plus inefficaces et souvent imprécises. Ces approches héritées peinent à capturer toute la richesse et le contexte nuancé intégrés dans la vidéo, ce qui entraîne des opportunités manquées de réutilisation de contenu, une production plus rapide et des expériences améliorées pour les spectateurs.

Entrez dans l'ère des embeddings multimodaux. AWS est à l'avant-garde d'une solution qui transcende ces limitations, permettant des capacités de recherche sémantique sur des ensembles de données vidéo colossaux. En exploitant la puissance des modèles Amazon Nova et d'Amazon OpenSearch Service, les créateurs et distributeurs de contenu peuvent aller au-delà des mots-clés superficiels pour véritablement comprendre et accéder à leurs médiathèques. Cette approche innovante permet aux requêtes en langage naturel de sonder les profondeurs des informations visuelles et auditives, apportant une précision sans précédent à la découverte de contenu.

Démontrant cette capacité à une échelle impressionnante, AWS a traité 792 270 vidéos de l'AWS Open Data Registry, englobant un étonnant 8 480 heures de contenu vidéo. Cette entreprise ambitieuse, qui a pris seulement 41 heures pour traiter plus de 30,5 millions de secondes de vidéo, souligne l'évolutivité et l'efficacité de cette approche basée sur l'IA. Le coût de la première année, incluant l'ingestion unique et le service OpenSearch annuel, a été estimé à un prix très compétitif de 23 632 $ (avec des instances réservées d'OpenSearch Service) à 27 328 $ (avec l'option à la demande). Une telle solution transforme fondamentalement la manière dont les entreprises de médias interagissent avec leurs actifs numériques, ouvrant de nouvelles voies pour la monétisation de contenu et les workflows de production. Ce changement de paradigme vers la compréhension sémantique est un développement critique pour l'IA d'entreprise dans les médias.

Comprendre l'architecture du lac de données IA multimodal évolutif

En son cœur, ce puissant système de recherche vidéo multimodale est bâti sur deux workflows interconnectés : l'ingestion vidéo et la recherche. Ces composants s'intègrent de manière transparente pour créer un lac de données IA qui comprend et rend consultables les détails complexes du contenu vidéo.

Pipeline d'ingestion vidéo

Le pipeline d'ingestion est conçu pour le traitement parallèle et l'efficacité. Il utilise quatre instances Amazon EC2 c7i.48xlarge, orchestrant jusqu'à 600 workers parallèles pour atteindre un taux de traitement de 19 400 vidéos par heure. Les vidéos initialement téléchargées vers Amazon S3 sont ensuite traitées par l'API asynchrone d'Amazon Nova Multimodal Embeddings. Cette API segmente intelligemment les vidéos en blocs optimaux de 15 secondes — un équilibre entre la capture de changements de scène significatifs et la gestion du volume d'embeddings générés. Chaque segment est ensuite transformé en un embedding de 1024 dimensions, représentant ses caractéristiques audio-visuelles combinées. Alors que les embeddings de 3072 dimensions offrent une fidélité plus élevée, l'option de 1024 dimensions permet une économie de coût de stockage de 3x avec un impact minimal sur la précision pour cette application, ce qui en fait un choix pragmatique pour l'échelle.

Pour améliorer davantage la capacité de recherche, Amazon Nova Pro (ou le plus récent et plus rentable Nova 2 Lite) est utilisé pour générer 10 à 15 balises descriptives par vidéo à partir d'une taxonomie prédéfinie. Cette double approche garantit que le contenu est découvrable à la fois par similarité sémantique et par correspondance de mots-clés traditionnels. Ces embeddings sont stockés dans un index k-NN d'OpenSearch, optimisé pour la recherche de similarité vectorielle, tandis que les balises descriptives sont indexées dans un index textuel séparé. Cette séparation permet des requêtes flexibles et efficaces. Le pipeline gère les limites de concurrence de Bedrock (30 tâches concurrentes par compte) via un mécanisme robuste de file d'attente de tâches et d'interrogation, assurant un traitement continu et conforme.

Vous trouverez ci-dessous une représentation visuelle de ce processus d'ingestion sophistiqué :

Figure 1: Pipeline d'ingestion vidéo montrant le flux du stockage vidéo S3 via Nova Multimodal Embeddings et Nova Pro vers les doubles index OpenSearch

Habiliter diverses capacités de recherche vidéo

L'architecture de recherche est conçue pour la polyvalence, offrant plusieurs modes de découverte de contenu :

Recherche Texte-vers-vidéo : Les utilisateurs peuvent saisir des requêtes en langage naturel, telles que "une prise de vue par drone d'une ville animée la nuit" ou "un gros plan d'un chef préparant un repas gastronomique." Le système convertit ces requêtes en embeddings, puis utilise l'index k-NN d'OpenSearch pour trouver des segments vidéo ou des vidéos entières qui correspondent sémantiquement à la description, même si les mots exacts ne sont pas présents dans les métadonnées. C'est idéal pour une découverte de contenu intuitive et le storyboarding.
Recherche Vidéo-vers-vidéo : Pour les scénarios où un utilisateur dispose d'un clip vidéo et souhaite trouver un contenu similaire, ce mode excelle. En comparant directement les embeddings de la vidéo d'entrée avec ceux de l'index k-NN d'OpenSearch, le système peut identifier un contenu visuellement et auditivement analogue. C'est inestimable pour identifier des images de coupe (B-roll), assurer la cohérence du contenu ou découvrir des œuvres dérivées.
Recherche Hybride : Combinant le meilleur des deux mondes, la recherche hybride intègre la similarité vectorielle avec la correspondance de mots-clés traditionnelle. La solution proposée utilise une approche pondérée (par exemple, 70 % de similarité vectorielle et 30 % de correspondance de mots-clés). Cela garantit une grande précision et pertinence, permettant aux métadonnées spécifiques de guider la recherche tandis que la compréhension sémantique fournit de larges correspondances contextuelles. Cette approche est particulièrement efficace pour les requêtes complexes qui bénéficient à la fois de balises précises et de la compréhension conceptuelle.

Figure 2: Architecture de recherche vidéo démontrant trois modes de recherche – texte-vers-vidéo, vidéo-vers-vidéo et recherche hybride combinant k-NN et BM25

Déploiement rentable et prérequis

Le déploiement d'un lac de données IA aussi sophistiqué nécessite une considération attentive de l'infrastructure et des coûts, qu'AWS a optimisés pour l'efficacité. Le coût total pour le traitement des vastes ensembles de données, soit environ 8 480 heures de contenu vidéo, s'est élevé à un total estimé pour la première année de 27 328 $ (avec OpenSearch à la demande) ou 23 632 $ (avec des instances réservées d'OpenSearch Service).

La ventilation de l'ingestion met en évidence les principaux facteurs de coût :

Calcul Amazon EC2 : 421 $ (4 instances spot c7i.48xlarge pendant 41 heures)
Embeddings multimodaux Amazon Bedrock Nova : 17 096 $ (30,5 M de secondes à 0,00056 $/seconde en tarification par lot)
Balisage Nova Pro : 571 $ (792 K vidéos, environ 600 jetons/vidéo en moyenne)
Amazon OpenSearch Service : 9 240 $ (annuel à la demande) ou 5 544 $ (annuel réservé)

Prérequis pour l'implémentation : Pour reproduire ou adapter cette solution, vous aurez besoin de :

Un compte AWS avec accès à Amazon Bedrock dans us-east-1.
Python 3.9 ou version ultérieure.
AWS Command Line Interface (AWS CLI) configurée avec les informations d'identification appropriées.
Un domaine Amazon OpenSearch Service (r6g.large ou supérieur recommandé), version 2.11 ou ultérieure, avec le plugin k-NN activé.
Un bucket Amazon S3 pour le stockage vidéo et les sorties d'embeddings.
Permissions AWS Identity and Access Management (IAM) pour Amazon Bedrock, OpenSearch Service et Amazon S3.

La solution tire parti de services et modèles AWS spécifiques :

Amazon Bedrock avec amazon.nova-2-multimodal-embeddings-v1:0 pour les embeddings.
Amazon Bedrock avec us.amazon.nova-pro-v1:0 ou us.amazon.nova-2-lite-v1:0 pour le balisage.
Amazon OpenSearch Service 2.11+ avec plugin k-NN.
Amazon S3 pour le stockage.

Implémentation de la solution de recherche vidéo multimodale

Démarrer avec cette architecture implique une approche structurée pour la configuration de votre environnement AWS. La première étape cruciale consiste à établir les permissions nécessaires.

Étape 1 : Créer des rôles et des politiques IAM

Vous devrez créer un rôle IAM qui accorde à votre application ou service l'autorité d'interagir avec les différents composants AWS. Ce rôle doit inclure les permissions pour invoquer les modèles Amazon Bedrock (pour la génération d'embeddings et le balisage), écrire des données dans les index OpenSearch et effectuer des opérations de lecture/écriture sur les buckets Amazon S3 où résident votre contenu vidéo et les sorties traitées.

Voici un exemple de structure de politique IAM fondamentale :

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::votre-bucket-video/*",
        "arn:aws:s3:::votre-bucket-video"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/votre-domaine-opensearch/*"
    }
  ]
}

Cette politique accorde des permissions spécifiques essentielles au fonctionnement du pipeline. N'oubliez pas de remplacer les espaces réservés comme votre-bucket-video et votre-domaine-opensearch par les noms de vos ressources réelles. Après la configuration IAM, vous procéderez à la configuration de vos buckets S3, à la mise en place de votre domaine OpenSearch Service avec k-NN activé, et au développement de la logique d'orchestration qui exploite les API Bedrock pour l'ingestion. Ce cadre robuste garantit que les entreprises de médias et de divertissement peuvent gérer, découvrir et monétiser efficacement leurs bibliothèques de contenu en constante croissance, marquant un bond significatif dans l'intelligence du contenu. Cette solution complète est un exemple de la manière dont les capacités d'IA modernes, en particulier la compréhension multimodale, redéfinissent les normes de l'industrie en matière de gestion et d'accessibilité du contenu. C'est un témoignage de la puissance de l'intégration de modèles d'IA avancés avec une infrastructure cloud évolutive pour résoudre les défis réels de l'IA d'entreprise, favorisant des avancées similaires à celles observées dans les workflows d'IA agentique.

Source originale

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Questions Fréquentes

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Restez informé

Recevez les dernières actualités IA dans votre boîte mail.