Scalarea încorporărilor multimodale: Lac de date AI pentru media și divertisment

Revoluționarea Căutării Video cu Încorporări Multimodale

Industria media și divertismentului este inundată de cantități vaste de conținut video. De la filmări de arhivă la încărcări zilnice, volumul imens face ca metodele tradiționale de descoperire a conținutului – etichetarea manuală și căutările bazate pe cuvinte cheie – să fie din ce în ce mai ineficiente și adesea inexacte. Aceste abordări vechi se luptă să capteze bogăția deplină și contextul nuanțat încorporat în video, ducând la oportunități ratate pentru reutilizarea conținutului, producție mai rapidă și experiențe îmbunătățite pentru spectatori.

Intră în era încorporărilor multimodale. AWS este un pionier într-o soluție care depășește aceste limitări, permițând capacități de căutare semantică în seturi de date video colosale. Prin valorificarea puterii modelelor Amazon Nova și Amazon OpenSearch Service, creatorii și distribuitorii de conținut pot depăși cuvintele cheie superficiale pentru a înțelege și accesa cu adevărat bibliotecile lor media. Această abordare inovatoare permite interogărilor în limbaj natural să exploreze adâncimile informațiilor vizuale și auditive, aducând o precizie fără precedent în descoperirea conținutului.

Demonstrând această capacitate la o scară impresionantă, AWS a procesat 792.270 de videoclipuri din Registrul de Date Deschis AWS, cuprinzând un număr uimitor de 8.480 de ore de conținut video. Această întreprindere ambițioasă, care a durat doar 41 de ore pentru a procesa peste 30,5 milioane de secunde de video, evidențiază scalabilitatea și eficiența acestei abordări bazate pe AI. Costul pentru primul an, incluzând ingestia unică și serviciul anual OpenSearch Service, a fost estimat la un preț extrem de competitiv, de 23.632 USD (cu instanțe rezervate OpenSearch Service) până la 27.328 USD (cu servicii la cerere). O astfel de soluție transformă fundamental modul în care companiile media interacționează cu activele lor digitale, deschizând noi căi pentru monetizarea conținutului și fluxurile de lucru de producție. Această schimbare de paradigmă către înțelegerea semantică este o dezvoltare critică pentru AI pentru Întreprinderi în media.

Înțelegerea Arhitecturii Scalabile a Lacului de Date AI Multimodal

La baza sa, acest sistem puternic de căutare video multimodală este construit pe două fluxuri de lucru interconectate: ingestia video și căutarea. Aceste componente se integrează perfect pentru a crea un lac de date AI care înțelege și face căutabile detaliile complexe ale conținutului video.

Pipeline-ul de Ingestie Video

Pipeline-ul de ingestie este proiectat pentru procesare paralelă și eficiență. Acesta utilizează patru instanțe Amazon EC2 c7i.48xlarge, orchestrând până la 600 de lucrători paraleli pentru a atinge o rată de procesare de 19.400 de videoclipuri pe oră. Videoclipurile încărcate inițial în Amazon S3 sunt apoi procesate de API-ul asincron Amazon Nova Multimodal Embeddings. Acest API segmentează inteligent videoclipurile în bucăți optime de 15 secunde – un echilibru între capturarea modificărilor semnificative ale scenei și gestionarea volumului de încorporări generate. Fiecare segment este apoi transformat într-o încorporare de 1024 de dimensiuni, reprezentând caracteristicile sale audio-vizuale combinate. În timp ce încorporările de 3072 de dimensiuni oferă o fidelitate mai mare, opțiunea de 1024 de dimensiuni oferă o economie de 3 ori la costul de stocare cu un impact minim asupra preciziei pentru această aplicație, făcând-o o alegere pragmatică pentru scalare.

Pentru a îmbunătăți și mai mult capacitatea de căutare, Amazon Nova Pro (sau mai noul și mai rentabil Nova 2 Lite) este utilizat pentru a genera 10-15 etichete descriptive per videoclip dintr-o taxonomie predefinită. Această abordare duală asigură că conținutul poate fi descoperit atât prin similitudine semantică, cât și prin potrivire tradițională de cuvinte cheie. Aceste încorporări sunt stocate într-un index OpenSearch k-NN, optimizat pentru căutarea de similitudine vectorială, în timp ce etichetele descriptive sunt indexate într-un index de text separat. Această separare permite interogări flexibile și eficiente. Pipeline-ul gestionează limitele de concurență ale Bedrock (30 de joburi concurente per cont) printr-o coadă de joburi robustă și un mecanism de interogare, asigurând procesarea continuă și conformă.

Mai jos este o reprezentare vizuală a acestui proces sofisticat de ingestie:

Figura 1: Pipeline de ingestie video care arată fluxul de la stocarea video S3 prin Nova Multimodal Embeddings și Nova Pro la indici OpenSearch duali

Abilitarea Diverselor Capacități de Căutare Video

Arhitectura de căutare este proiectată pentru versatilitate, oferind multiple moduri de descoperire a conținutului:

Căutare text-video: Utilizatorii pot introduce interogări în limbaj natural, cum ar fi „o filmare cu dronă a unui oraș aglomerat noaptea” sau „un prim-plan al unui bucătar care prepară o masă gourmet”. Sistemul convertește aceste interogări în încorporări, apoi utilizează indexul OpenSearch k-NN pentru a găsi segmente video sau videoclipuri întregi care se potrivesc semantic descrierii, chiar dacă cuvintele exacte nu sunt prezente în metadate. Acest lucru este ideal pentru descoperirea intuitivă a conținutului și storyboard.
Căutare video-video: Pentru scenariile în care un utilizator are un clip video și dorește să găsească conținut similar, acest mod excelează. Prin compararea directă a încorporărilor videoclipului de intrare cu cele din indexul OpenSearch k-NN, sistemul poate identifica conținut vizual și auditiv analog. Acest lucru este neprețuit pentru identificarea imaginilor de arhivă (B-roll), asigurarea coerenței conținutului sau descoperirea lucrărilor derivate.
Căutare hibridă: Combinând ce e mai bun din ambele lumi, căutarea hibridă integrează similitudinea vectorială cu potrivirea tradițională de cuvinte cheie. Soluția propusă utilizează o abordare ponderată (de exemplu, 70% similitudine vectorială și 30% potrivire de cuvinte cheie). Acest lucru asigură o precizie și relevanță ridicată, permițând metadatelor specifice să ghideze căutarea în timp ce înțelegerea semantică oferă potriviri contextuale ample. Această abordare este deosebit de eficientă pentru interogările complexe care beneficiază atât de etichete precise, cât și de înțelegere conceptuală.

Figura 2: Arhitectura de căutare video care demonstrează trei moduri de căutare – text-video, video-video și căutare hibridă care combină k-NN și BM25

Implementare Rentabilă și Condiții Preliminare

Implementarea unui astfel de lac de date AI sofisticat necesită o analiză atentă a infrastructurii și a costurilor, pe care AWS le-a optimizat pentru eficiență. Costul total pentru procesarea seturilor de date extinse, aproximativ 8.480 de ore de conținut video, s-a ridicat la o estimare totală pentru primul an de 27.328 USD (cu OpenSearch la cerere) sau 23.632 USD (cu instanțe rezervate OpenSearch Service).

Defalcarea ingestiei evidențiază principalii factori de cost:

Calcul Amazon EC2: 421 USD (4 instanțe spot c7i.48xlarge pentru 41 de ore)
Amazon Bedrock Nova Multimodal Embeddings: 17.096 USD (30,5 milioane de secunde la un preț de 0,00056 USD/secundă pentru procesare în batch)
Etichetare Nova Pro: 571 USD (792K videoclipuri, în medie aproximativ 600 de tokenuri/videoclip)
Amazon OpenSearch Service: 9.240 USD (anual la cerere) sau 5.544 USD (anual rezervat)

Condiții prealabile pentru implementare: Pentru a replica sau adapta această soluție, veți avea nevoie de:

Un cont AWS cu acces la Amazon Bedrock în us-east-1.
Python 3.9 sau o versiune ulterioară.
Interfața de Linie de Comandă AWS (AWS CLI) configurată cu credențialele corespunzătoare.
Un domeniu Amazon OpenSearch Service (recomandat r6g.large sau mai mare), versiunea 2.11 sau o versiune ulterioară, cu plugin-ul k-NN activat.
Un bucket Amazon S3 pentru stocarea video și ieșirile de încorporare.
Permisiuni AWS Identity and Access Management (IAM) pentru Amazon Bedrock, OpenSearch Service și Amazon S3.

Soluția utilizează servicii și modele AWS specifice:

Amazon Bedrock cu amazon.nova-2-multimodal-embeddings-v1:0 pentru încorporări.
Amazon Bedrock cu us.amazon.nova-pro-v1:0 sau us.amazon.nova-2-lite-v1:0 pentru etichetare.
Amazon OpenSearch Service 2.11+ cu plugin k-NN.
Amazon S3 pentru stocare.

Implementarea Soluției de Căutare Video Multimodală

Începerea utilizării acestei arhitecturi implică o abordare structurată pentru configurarea mediului AWS. Primul pas crucial este stabilirea permisiunilor necesare.

Pasul 1: Crearea Rolurilor și Politicilor IAM

Va trebui să creați un rol IAM care să-i confere aplicației sau serviciului dumneavoastră autoritatea de a interacționa cu diferitele componente AWS. Acest rol trebuie să includă permisiuni pentru a invoca modele Amazon Bedrock (atât pentru generarea de încorporări, cât și pentru etichetare), a scrie date în indicii OpenSearch și a efectua operațiuni de citire/scriere pe bucket-urile Amazon S3 unde se află conținutul video și ieșirile procesate.

Iată un exemplu de structură fundamentală a politicii IAM:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Această politică acordă permisiuni specifice esențiale pentru funcționarea pipeline-ului. Nu uitați să înlocuiți locurile rezervate precum your-video-bucket și your-opensearch-domain cu numele resurselor dumneavoastră reale. După configurarea IAM, veți continua cu configurarea bucket-urilor S3, setarea domeniului OpenSearch Service cu k-NN activat și dezvoltarea logicii de orchestrare care utilizează API-urile Bedrock pentru ingestie. Acest cadru robust asigură că companiile de media și divertisment își pot gestiona, descoperi și monetiza eficient bibliotecile de conținut în continuă creștere, marcând un salt semnificativ în inteligența conținutului. Această soluție cuprinzătoare este un exemplu al modului în care capacitățile AI moderne, în special în înțelegerea multimodală, redefinesc standardele industriei pentru gestionarea și accesibilitatea conținutului. Este o dovadă a puterii de integrare a modelelor AI avansate cu infrastructura cloud scalabilă pentru a rezolva provocările AI pentru Întreprinderi din lumea reală, încurajând progrese similare cu cele observate în fluxurile de lucru AI agentice.

Sursa originală

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Întrebări frecvente

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Rămâi la curent

Primește ultimele știri AI în inbox-ul tău.

Distribuie