Multimodale indlejringer i stor skala: AI-dataskattekammer til medie- og underholdningsarbejdsbyrder

Revolutionering af videosøgning med multimodale indlejringer

Medie- og underholdningsindustrien svømmer i enorme mængder videoindhold. Fra arkivmateriale til daglige uploads gør den store volumen traditionelle metoder til indholdsopdagelse — manuel tagging og nøgleordsbaserede søgninger — stadig mere ineffektive og ofte unøjagtige. Disse ældre tilgange kæmper med at fange den fulde rigdom og nuancerede kontekst, der er indlejret i video, hvilket fører til spildte muligheder for genbrug af indhold, hurtigere produktion og forbedrede seeroplevelser.

Træd ind i æraen med multimodale indlejringer. AWS er pioner inden for en løsning, der overskrider disse begrænsninger og muliggør semantiske søgefunktioner på tværs af kolossale videosæt. Ved at udnytte kraften i Amazon Nova-modeller og Amazon OpenSearch Service kan indholdsskabere og -distributører bevæge sig ud over overfladiske nøgleord for virkelig at forstå og få adgang til deres mediebiblioteker. Denne innovative tilgang gør det muligt for naturlige sprogforespørgsler at udforske dybderne af visuel og auditiv information, hvilket bringer hidtil uset præcision til indholdsopdagelse.

Som demonstration af denne kapacitet i imponerende skala har AWS behandlet 792.270 videoer fra AWS Open Data Registry, der omfatter forbløffende 8.480 timers videoindhold. Denne ambitiøse opgave, som kun tog 41 timer at behandle over 30,5 millioner sekunder video, fremhæver skalerbarheden og effektiviteten af denne AI-drevne tilgang. Den førsteårsomkostning, inklusive engangsindtagelse og årlig OpenSearch Service, blev estimeret til en meget konkurrencedygtig pris på $23.632 (med OpenSearch Service Reserved Instances) til $27.328 (med on-demand). En sådan løsning transformerer fundamentalt, hvordan medievirksomheder interagerer med deres digitale aktiver, hvilket åbner nye veje for indholdsmonetarisering og produktionsarbejdsgange. Dette paradigmeskift mod semantisk forståelse er en kritisk udvikling for Virksomheds-AI i medieverdenen.

Forståelse af den skalerbare multimodale AI-dataskattekammerarkitektur

I sin kerne er dette kraftfulde multimodale videosøgesystem bygget på to sammenkoblede arbejdsgange: videoindtagelse og søgning. Disse komponenter integreres problemfrit for at skabe et AI-dataskattekammer, der forstår og gør de indviklede detaljer i videoindhold søgbare.

Videoindtagelsespipeline

Indtagelsespipelinen er designet til parallel behandling og effektivitet. Den udnytter fire Amazon EC2 c7i.48xlarge-instanser, der orkestrerer op til 600 parallelle arbejder for at opnå en behandlingshastighed på 19.400 videoer pr. time. Videoer, der oprindeligt er uploadet til Amazon S3, behandles derefter af Amazon Nova Multimodal Embeddings' asynkrone API. Denne API segmenterer intelligent videoer i optimale 15-sekunders bidder — en balance mellem at fange betydelige sceneskift og håndtere mængden af genererede indlejringer. Hvert segment omdannes derefter til en 1024-dimensionel indlejring, der repræsenterer dets kombinerede audio-visuelle funktioner. Mens 3072-dimensionelle indlejringer tilbyder højere troskab, giver den 1024-dimensionelle mulighed en 3x besparelse i lageromkostninger med minimal indvirkning på nøjagtigheden for denne applikation, hvilket gør det til et pragmatisk valg for skalering.

For yderligere at forbedre søgbarheden anvendes Amazon Nova Pro (eller den nyere, mere omkostningseffektive Nova 2 Lite) til at generere 10-15 beskrivende tags pr. video fra en foruddefineret taksonomi. Denne dobbelte tilgang sikrer, at indhold kan opdages både gennem semantisk lighed og traditionel nøgleordsmatch. Disse indlejringer lagres i et OpenSearch k-NN-indeks, optimeret til vektorsimilaritetssøgning, mens de beskrivende tags indekseres i et separat tekstindeks. Denne adskillelse giver mulighed for fleksibel og effektiv forespørgsel. Pipelinjen håndterer Bedrocks samtidighedsgrænser (30 samtidige jobs pr. konto) gennem en robust jobkø og polling-mekanisme, der sikrer kontinuerlig og kompatibel behandling.

Nedenfor er en visuel repræsentation af denne sofistikerede indtagelsesproces:

Figur 1: Videoindtagelsespipeline, der viser flowet fra S3-videolagring gennem Nova Multimodal Embeddings og Nova Pro til dobbelte OpenSearch-indekser

Styrkelse af forskellige videosøgningsfunktioner

Søgearkitekturen er designet til alsidighed og tilbyder flere måder at opdage indhold på:

Tekst-til-video-søgning: Brugere kan indtaste naturlige sprogforespørgsler, såsom "et dronebillede af en travl by om natten" eller "et nærbillede af en kok, der tilbereder et gourmetmåltid". Systemet konverterer disse forespørgsler til indlejringer og udnytter derefter OpenSearch k-NN-indekset til at finde videosegmenter eller hele videoer, der semantisk matcher beskrivelsen, selvom de nøjagtige ord ikke er til stede i metadata. Dette er ideelt til intuitiv indholdsopdagelse og storyboard-udvikling.
Video-til-video-søgning: I scenarier hvor en bruger har et videoklip og ønsker at finde lignende indhold, er denne tilstand fremragende. Ved at sammenligne indlejringerne af inputvideoen direkte med dem i OpenSearch k-NN-indekset, kan systemet identificere visuelt og auditivt analogt indhold. Dette er uvurderligt til at identificere B-roll-materiale, sikre indholdskonsistens eller opdage afledte værker.
Hybrid søgning: Hybrid søgning kombinerer det bedste fra begge verdener og integrerer vektorsimilaritet med traditionel nøgleordsmatch. Den foreslåede løsning bruger en vægtet tilgang (f.eks. 70% vektorsimilaritet og 30% nøgleordsmatch). Dette sikrer høj nøjagtighed og relevans, hvilket gør det muligt for specifikke metadata at styre søgningen, mens semantisk forståelse giver brede kontekstuelle matches. Denne tilgang er særligt effektiv til komplekse forespørgsler, der drager fordel af både præcise tags og konceptuel forståelse.

Figur 2: Videosøgningsarkitektur, der demonstrerer tre søgemåder – tekst-til-video, video-til-video og hybrid søgning, der kombinerer k-NN og BM25

Omkostningseffektiv implementering og forudsætninger

Implementering af et så sofistikeret AI-dataskattekammer kræver omhyggelig overvejelse af infrastruktur og omkostninger, hvilket AWS har optimeret for effektivitet. De samlede omkostninger for behandling af de omfattende datasæt, ca. 8.480 timers videoindhold, beløb sig til en estimeret førsteårs total på $27.328 (med OpenSearch on-demand) eller $23.632 (med OpenSearch Service Reserved Instances).

Fordelingen af indtagelsesomkostninger fremhæver vigtige omkostningsdrivere:

Amazon EC2-beregning: $421 (4x c7i.48xlarge spot-instanser i 41 timer)
Amazon Bedrock Nova Multimodal Embeddings: $17.096 (30,5M sekunder til $0,00056/sekund batchpriser)
Nova Pro-tagging: $571 (792K videoer, ca. 600 tokens/video i gennemsnit)
Amazon OpenSearch Service: $9.240 (on-demand årligt) eller $5.544 (Reserveret årligt)

Forudsætninger for implementering:
For at replikere eller tilpasse denne løsning skal du bruge:

En AWS-konto med adgang til Amazon Bedrock i us-east-1.
Python 3.9 eller nyere.
AWS Command Line Interface (AWS CLI) konfigureret med passende legitimationsoplysninger.
Et Amazon OpenSearch Service-domæne (r6g.large eller større anbefales), version 2.11 eller nyere, med k-NN-plugin aktiveret.
En Amazon S3-bucket til videolagring og indlejringsoutput.
AWS Identity and Access Management (IAM) tilladelser for Amazon Bedrock, OpenSearch Service og Amazon S3.

Løsningen udnytter specifikke AWS-tjenester og -modeller:

Amazon Bedrock med amazon.nova-2-multimodal-embeddings-v1:0 til indlejringer.
Amazon Bedrock med us.amazon.nova-pro-v1:0 eller us.amazon.nova-2-lite-v1:0 til tagging.
Amazon OpenSearch Service 2.11+ med k-NN-plugin.
Amazon S3 til lagring.

Implementering af den multimodale videosøgningsløsning

At komme i gang med denne arkitektur involverer en struktureret tilgang til opsætning af dit AWS-miljø. Det første afgørende skridt er at etablere de nødvendige tilladelser.

Trin 1: Opret IAM-roller og -politikker

Du skal oprette en IAM-rolle, der giver din applikation eller tjeneste tilladelse til at interagere med de forskellige AWS-komponenter. Denne rolle skal inkludere tilladelser til at kalde Amazon Bedrock-modeller (både til generering af indlejringer og tagging), skrive data til OpenSearch-indekser og udføre læse-/skriveoperationer på Amazon S3-buckets, hvor dit videoindhold og behandlede output befinder sig.

Her er et eksempel på en grundlæggende IAM-politikstruktur:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Denne politik giver specifikke tilladelser, der er afgørende for pipelinens drift. Husk at erstatte pladsholdere som your-video-bucket og your-opensearch-domain med dine faktiske ressourcenavne. Efter IAM-opsætningen fortsætter du med at konfigurere dine S3-buckets, opsætte dit OpenSearch Service-domæne med k-NN aktiveret og udvikle orkestreringslogikken, der udnytter Bedrock API'erne til indtagelse. Denne robuste ramme sikrer, at medie- og underholdningsvirksomheder effektivt kan administrere, opdage og tjene penge på deres stadigt voksende indholdsbiblioteker, hvilket markerer et betydeligt spring inden for indholdsintelligens. Denne omfattende løsning er et eksempel på, hvordan moderne AI-kapaciteter, især inden for multimodal forståelse, omdefinerer industristandarder for indholdsstyring og tilgængelighed. Det er et bevis på styrken ved at integrere avancerede AI-modeller med skalerbar cloud-infrastruktur for at løse virkelige Virksomheds-AI-udfordringer, hvilket fremmer fremskridt, der ligner dem, der ses i Agentisk AI-arbejdsgange.

Original kilde

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Ofte stillede spørgsmål

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Hold dig opdateret

Få de seneste AI-nyheder i din indbakke.

Del