Revolutionering af videosøgning med multimodale indlejringer
Medie- og underholdningsindustrien svømmer i enorme mængder videoindhold. Fra arkivmateriale til daglige uploads gør den store volumen traditionelle metoder til indholdsopdagelse — manuel tagging og nøgleordsbaserede søgninger — stadig mere ineffektive og ofte unøjagtige. Disse ældre tilgange kæmper med at fange den fulde rigdom og nuancerede kontekst, der er indlejret i video, hvilket fører til spildte muligheder for genbrug af indhold, hurtigere produktion og forbedrede seeroplevelser.
Træd ind i æraen med multimodale indlejringer. AWS er pioner inden for en løsning, der overskrider disse begrænsninger og muliggør semantiske søgefunktioner på tværs af kolossale videosæt. Ved at udnytte kraften i Amazon Nova-modeller og Amazon OpenSearch Service kan indholdsskabere og -distributører bevæge sig ud over overfladiske nøgleord for virkelig at forstå og få adgang til deres mediebiblioteker. Denne innovative tilgang gør det muligt for naturlige sprogforespørgsler at udforske dybderne af visuel og auditiv information, hvilket bringer hidtil uset præcision til indholdsopdagelse.
Som demonstration af denne kapacitet i imponerende skala har AWS behandlet 792.270 videoer fra AWS Open Data Registry, der omfatter forbløffende 8.480 timers videoindhold. Denne ambitiøse opgave, som kun tog 41 timer at behandle over 30,5 millioner sekunder video, fremhæver skalerbarheden og effektiviteten af denne AI-drevne tilgang. Den førsteårsomkostning, inklusive engangsindtagelse og årlig OpenSearch Service, blev estimeret til en meget konkurrencedygtig pris på $23.632 (med OpenSearch Service Reserved Instances) til $27.328 (med on-demand). En sådan løsning transformerer fundamentalt, hvordan medievirksomheder interagerer med deres digitale aktiver, hvilket åbner nye veje for indholdsmonetarisering og produktionsarbejdsgange. Dette paradigmeskift mod semantisk forståelse er en kritisk udvikling for Virksomheds-AI i medieverdenen.
Forståelse af den skalerbare multimodale AI-dataskattekammerarkitektur
I sin kerne er dette kraftfulde multimodale videosøgesystem bygget på to sammenkoblede arbejdsgange: videoindtagelse og søgning. Disse komponenter integreres problemfrit for at skabe et AI-dataskattekammer, der forstår og gør de indviklede detaljer i videoindhold søgbare.
Videoindtagelsespipeline
Indtagelsespipelinen er designet til parallel behandling og effektivitet. Den udnytter fire Amazon EC2 c7i.48xlarge-instanser, der orkestrerer op til 600 parallelle arbejder for at opnå en behandlingshastighed på 19.400 videoer pr. time. Videoer, der oprindeligt er uploadet til Amazon S3, behandles derefter af Amazon Nova Multimodal Embeddings' asynkrone API. Denne API segmenterer intelligent videoer i optimale 15-sekunders bidder — en balance mellem at fange betydelige sceneskift og håndtere mængden af genererede indlejringer. Hvert segment omdannes derefter til en 1024-dimensionel indlejring, der repræsenterer dets kombinerede audio-visuelle funktioner. Mens 3072-dimensionelle indlejringer tilbyder højere troskab, giver den 1024-dimensionelle mulighed en 3x besparelse i lageromkostninger med minimal indvirkning på nøjagtigheden for denne applikation, hvilket gør det til et pragmatisk valg for skalering.
For yderligere at forbedre søgbarheden anvendes Amazon Nova Pro (eller den nyere, mere omkostningseffektive Nova 2 Lite) til at generere 10-15 beskrivende tags pr. video fra en foruddefineret taksonomi. Denne dobbelte tilgang sikrer, at indhold kan opdages både gennem semantisk lighed og traditionel nøgleordsmatch. Disse indlejringer lagres i et OpenSearch k-NN-indeks, optimeret til vektorsimilaritetssøgning, mens de beskrivende tags indekseres i et separat tekstindeks. Denne adskillelse giver mulighed for fleksibel og effektiv forespørgsel. Pipelinjen håndterer Bedrocks samtidighedsgrænser (30 samtidige jobs pr. konto) gennem en robust jobkø og polling-mekanisme, der sikrer kontinuerlig og kompatibel behandling.
Nedenfor er en visuel repræsentation af denne sofistikerede indtagelsesproces:

Figur 1: Videoindtagelsespipeline, der viser flowet fra S3-videolagring gennem Nova Multimodal Embeddings og Nova Pro til dobbelte OpenSearch-indekser
Styrkelse af forskellige videosøgningsfunktioner
Søgearkitekturen er designet til alsidighed og tilbyder flere måder at opdage indhold på:
-
Tekst-til-video-søgning: Brugere kan indtaste naturlige sprogforespørgsler, såsom "et dronebillede af en travl by om natten" eller "et nærbillede af en kok, der tilbereder et gourmetmåltid". Systemet konverterer disse forespørgsler til indlejringer og udnytter derefter OpenSearch k-NN-indekset til at finde videosegmenter eller hele videoer, der semantisk matcher beskrivelsen, selvom de nøjagtige ord ikke er til stede i metadata. Dette er ideelt til intuitiv indholdsopdagelse og storyboard-udvikling.
-
Video-til-video-søgning: I scenarier hvor en bruger har et videoklip og ønsker at finde lignende indhold, er denne tilstand fremragende. Ved at sammenligne indlejringerne af inputvideoen direkte med dem i OpenSearch k-NN-indekset, kan systemet identificere visuelt og auditivt analogt indhold. Dette er uvurderligt til at identificere B-roll-materiale, sikre indholdskonsistens eller opdage afledte værker.
-
Hybrid søgning: Hybrid søgning kombinerer det bedste fra begge verdener og integrerer vektorsimilaritet med traditionel nøgleordsmatch. Den foreslåede løsning bruger en vægtet tilgang (f.eks. 70% vektorsimilaritet og 30% nøgleordsmatch). Dette sikrer høj nøjagtighed og relevans, hvilket gør det muligt for specifikke metadata at styre søgningen, mens semantisk forståelse giver brede kontekstuelle matches. Denne tilgang er særligt effektiv til komplekse forespørgsler, der drager fordel af både præcise tags og konceptuel forståelse.

Figur 2: Videosøgningsarkitektur, der demonstrerer tre søgemåder – tekst-til-video, video-til-video og hybrid søgning, der kombinerer k-NN og BM25
Omkostningseffektiv implementering og forudsætninger
Implementering af et så sofistikeret AI-dataskattekammer kræver omhyggelig overvejelse af infrastruktur og omkostninger, hvilket AWS har optimeret for effektivitet. De samlede omkostninger for behandling af de omfattende datasæt, ca. 8.480 timers videoindhold, beløb sig til en estimeret førsteårs total på $27.328 (med OpenSearch on-demand) eller $23.632 (med OpenSearch Service Reserved Instances).
Fordelingen af indtagelsesomkostninger fremhæver vigtige omkostningsdrivere:
- Amazon EC2-beregning: $421 (4x c7i.48xlarge spot-instanser i 41 timer)
- Amazon Bedrock Nova Multimodal Embeddings: $17.096 (30,5M sekunder til $0,00056/sekund batchpriser)
- Nova Pro-tagging: $571 (792K videoer, ca. 600 tokens/video i gennemsnit)
- Amazon OpenSearch Service: $9.240 (on-demand årligt) eller $5.544 (Reserveret årligt)
Forudsætninger for implementering:
For at replikere eller tilpasse denne løsning skal du bruge:
- En AWS-konto med adgang til Amazon Bedrock i
us-east-1. - Python 3.9 eller nyere.
- AWS Command Line Interface (AWS CLI) konfigureret med passende legitimationsoplysninger.
- Et Amazon OpenSearch Service-domæne (r6g.large eller større anbefales), version 2.11 eller nyere, med k-NN-plugin aktiveret.
- En Amazon S3-bucket til videolagring og indlejringsoutput.
- AWS Identity and Access Management (IAM) tilladelser for Amazon Bedrock, OpenSearch Service og Amazon S3.
Løsningen udnytter specifikke AWS-tjenester og -modeller:
- Amazon Bedrock med
amazon.nova-2-multimodal-embeddings-v1:0til indlejringer. - Amazon Bedrock med
us.amazon.nova-pro-v1:0ellerus.amazon.nova-2-lite-v1:0til tagging. - Amazon OpenSearch Service 2.11+ med k-NN-plugin.
- Amazon S3 til lagring.
Implementering af den multimodale videosøgningsløsning
At komme i gang med denne arkitektur involverer en struktureret tilgang til opsætning af dit AWS-miljø. Det første afgørende skridt er at etablere de nødvendige tilladelser.
Trin 1: Opret IAM-roller og -politikker
Du skal oprette en IAM-rolle, der giver din applikation eller tjeneste tilladelse til at interagere med de forskellige AWS-komponenter. Denne rolle skal inkludere tilladelser til at kalde Amazon Bedrock-modeller (både til generering af indlejringer og tagging), skrive data til OpenSearch-indekser og udføre læse-/skriveoperationer på Amazon S3-buckets, hvor dit videoindhold og behandlede output befinder sig.
Her er et eksempel på en grundlæggende IAM-politikstruktur:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Denne politik giver specifikke tilladelser, der er afgørende for pipelinens drift. Husk at erstatte pladsholdere som your-video-bucket og your-opensearch-domain med dine faktiske ressourcenavne. Efter IAM-opsætningen fortsætter du med at konfigurere dine S3-buckets, opsætte dit OpenSearch Service-domæne med k-NN aktiveret og udvikle orkestreringslogikken, der udnytter Bedrock API'erne til indtagelse. Denne robuste ramme sikrer, at medie- og underholdningsvirksomheder effektivt kan administrere, opdage og tjene penge på deres stadigt voksende indholdsbiblioteker, hvilket markerer et betydeligt spring inden for indholdsintelligens. Denne omfattende løsning er et eksempel på, hvordan moderne AI-kapaciteter, især inden for multimodal forståelse, omdefinerer industristandarder for indholdsstyring og tilgængelighed. Det er et bevis på styrken ved at integrere avancerede AI-modeller med skalerbar cloud-infrastruktur for at løse virkelige Virksomheds-AI-udfordringer, hvilket fremmer fremskridt, der ligner dem, der ses i Agentisk AI-arbejdsgange.
Ofte stillede spørgsmål
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Hold dig opdateret
Få de seneste AI-nyheder i din indbakke.
