Revolusjonering av videosøk med multimodale innebygde representasjoner
Medie- og underholdningsindustrien er oversvømt av enorme mengder videoinnhold. Fra arkivmateriale til daglige opplastninger, gjør det enorme volumet tradisjonelle metoder for innholdsgjenfinning – manuell tagging og nøkkelordbaserte søk – stadig mer ineffektive og ofte unøyaktige. Disse eldre tilnærmingene sliter med å fange den fulle rikdommen og nyanserte konteksten innebygd i video, noe som fører til tapte muligheter for gjenbruk av innhold, raskere produksjon og forbedrede seeropplevelser.
Gå inn i æraen med multimodale innebygde representasjoner. AWS er banebrytende med en løsning som overgår disse begrensningene, og muliggjør semantiske søkefunksjoner på tvers av kolossale videodatasett. Ved å utnytte kraften i Amazon Nova-modeller og Amazon OpenSearch Service, kan innholdsskapere og -distributører bevege seg utover overfladiske nøkkelord for å virkelig forstå og få tilgang til mediebibliotekene sine. Denne innovative tilnærmingen gjør det mulig for naturlig språksøk å dykke ned i visuell og auditiv informasjon, noe som gir enestående presisjon til innholdsgjenfinning.
AWS demonstrerer denne funksjonaliteten i en imponerende skala, og har behandlet 792 270 videoer fra AWS Open Data Registry, som omfatter svimlende 8 480 timer med videoinnhold. Denne ambisiøse satsingen, som tok bare 41 timer å behandle over 30,5 millioner sekunder med video, understreker skalerbarheten og effektiviteten til denne AI-drevne tilnærmingen. Førsteårskostnaden, inkludert engangsinnmating og årlig OpenSearch Service, ble estimert til konkurransedyktige 23 632 dollar (med OpenSearch Service Reserverte Instanser) til 27 328 dollar (med on-demand). En slik løsning transformerer fundamentalt hvordan medieselskaper samhandler med sine digitale eiendeler, og åpner nye veier for inntektsgenerering av innhold og produksjonsarbeidsflyter. Dette paradigmeskiftet mot semantisk forståelse er en kritisk utvikling for Bedrifts-AI i media.
Forstå den skalerbare multimodale AI-datalagsarkitekturen
I kjernen er dette kraftige multimodale videosøkesystemet bygget på to sammenkoblede arbeidsflyter: videoinnmating og søk. Disse komponentene integreres sømløst for å skape et AI-datalag som forstår og gjør de intrikate detaljene i videoinnhold søkbart.
Videoinnmatingspipeline
Innmattingspipelinen er konstruert for parallell prosessering og effektivitet. Den bruker fire Amazon EC2 c7i.48xlarge-instanser, som orkestrerer opptil 600 parallelle arbeidere for å oppnå en prosesseringshastighet på 19 400 videoer per time. Videoer som opprinnelig er lastet opp til Amazon S3 behandles deretter av Amazon Nova Multimodale Innebygde Representasjoner asynkrone API. Dette API-et segmenterer videoer intelligent i optimale 15-sekunders biter – en balanse mellom å fange betydelige scenerendringer og å håndtere volumet av genererte innebygde representasjoner. Hvert segment blir deretter transformert til en 1024-dimensjonal innebygd representasjon, som representerer dets kombinerte audiovisuelle funksjoner. Mens 3072-dimensjonale innebygde representasjoner gir høyere gjengivelse, gir 1024-dimensjonale alternativet en 3x lagringskostnadsbesparelse med minimal innvirkning på nøyaktigheten for denne applikasjonen, noe som gjør det til et pragmatisk valg for skala.
For å ytterligere forbedre søkbarheten brukes Amazon Nova Pro (eller den nyere, mer kostnadseffektive Nova 2 Lite) til å generere 10-15 beskrivende tagger per video fra en forhåndsdefinert taksonomi. Denne doble tilnærmingen sikrer at innholdet er oppdagbart både gjennom semantisk likhet og tradisjonell nøkkelordmatching. Disse innebygde representasjonene lagres i en OpenSearch k-NN-indeks, optimalisert for vektorsøk, mens de beskrivende taggene indekseres i en egen tekstindeks. Denne separasjonen muliggjør fleksibel og effektiv spørring. Pipelinen håndterer Bedrocks samtidighet-grenser (30 samtidige jobber per konto) gjennom en robust jobbkø og spørremekanisme, noe som sikrer kontinuerlig og kompatibel prosessering.
Nedenfor er en visuell fremstilling av denne sofistikerte innmatingsprosessen:

Figur 1: Videoinnmatingspipeline som viser flyten fra S3 videolagring gjennom Nova Multimodale Innebygde Representasjoner og Nova Pro til doble OpenSearch-indekser
Muliggjøring av varierte videosøkfunksjoner
Søkearkitekturen er designet for allsidighet, og tilbyr flere modi for innholdsgjenfinning:
-
Tekst-til-video-søk: Brukere kan legge inn naturlig språksspørringer, for eksempel "et droneopptak av en travel by om natten" eller "et nærbilde av en kokk som forbereder et gourmetmåltid." Systemet konverterer disse spørringene til innebygde representasjoner, og bruker deretter OpenSearch k-NN-indeksen til å finne videosegmenter eller hele videoer som semantisk samsvarer med beskrivelsen, selv om de eksakte ordene ikke er til stede i noen metadata. Dette er ideelt for intuitiv innholdsgjenfinning og storyboardutvikling.
-
Video-til-video-søk: For scenarier der en bruker har et videoklipp og ønsker å finne lignende innhold, utmerker denne modusen seg. Ved å sammenligne de innebygde representasjonene av inndatavideoen direkte med de i OpenSearch k-NN-indeksen, kan systemet identifisere visuelt og auditivt analogt innhold. Dette er uvurderlig for å identifisere B-roll-materiale, sikre innholdskonsistens eller oppdage avledede verk.
-
Hybridsøk: Hybridsøk kombinerer det beste fra begge verdener, og integrerer vektorslikhet med tradisjonell nøkkelordmatching. Den foreslåtte løsningen bruker en vektet tilnærming (f.eks. 70 % vektorslikhet og 30 % nøkkelordmatching). Dette sikrer høy nøyaktighet og relevans, slik at spesifikke metadata kan veilede søket mens semantisk forståelse gir brede kontekstuelle treff. Denne tilnærmingen er spesielt effektiv for komplekse spørringer som drar nytte av både presise tagger og konseptuell forståelse.

Figur 2: Videosøkearkitektur som demonstrerer tre søkemoduser – tekst-til-video, video-til-video og hybridsøk som kombinerer k-NN og BM25
Kostnadseffektiv utrulling og forutsetninger
Utrulling av et slikt sofistikert AI-datalag krever nøye vurdering av infrastruktur og kostnader, som AWS har optimalisert for effektivitet. Den totale kostnaden for å behandle de omfattende datasettene, omtrent 8 480 timer med videoinnhold, kom til en estimert førsteårs total på 27 328 dollar (med OpenSearch on-demand) eller 23 632 dollar (med OpenSearch Service Reserverte Instanser).
Kostnadsfordelingen for innmating fremhever viktige kostnadsdrivere:
- Amazon EC2-beregning: 421 dollar (4x c7i.48xlarge spot-instanser i 41 timer)
- Amazon Bedrock Nova Multimodale Innebygde Representasjoner: 17 096 dollar (30,5 millioner sekunder til 0,00056 dollar/sekund batch-priser)
- Nova Pro-tagging: 571 dollar (792 000 videoer, ca. 600 tokens/video i gjennomsnitt)
- Amazon OpenSearch Service: 9 240 dollar (on-demand årlig) eller 5 544 dollar (Reservert årlig)
Forutsetninger for implementering: For å replikere eller tilpasse denne løsningen, trenger du:
- En AWS-konto med tilgang til Amazon Bedrock i
us-east-1. - Python 3.9 eller nyere.
- AWS Command Line Interface (AWS CLI) konfigurert med passende legitimasjon.
- Et Amazon OpenSearch Service-domene (r6g.large eller større anbefales), versjon 2.11 eller nyere, med k-NN-plugin aktivert.
- En Amazon S3-bøtte for videolagring og innebygde representasjonsutdata.
- AWS Identity and Access Management (IAM)-tillatelser for Amazon Bedrock, OpenSearch Service og Amazon S3.
Løsningen utnytter spesifikke AWS-tjenester og -modeller:
- Amazon Bedrock med
amazon.nova-2-multimodal-embeddings-v1:0for innebygde representasjoner. - Amazon Bedrock med
us.amazon.nova-pro-v1:0ellerus.amazon.nova-2-lite-v1:0for tagging. - Amazon OpenSearch Service 2.11+ med k-NN-plugin.
- Amazon S3 for lagring.
Implementering av den multimodale videosøkeløsningen
Å komme i gang med denne arkitekturen innebærer en strukturert tilnærming til å sette opp AWS-miljøet ditt. Det første avgjørende trinnet er å etablere de nødvendige tillatelsene.
Trinn 1: Opprett IAM-roller og -policyer
Du må opprette en IAM-rolle som gir applikasjonen eller tjenesten din myndighet til å samhandle med de ulike AWS-komponentene. Denne rollen må inkludere tillatelser til å påberope Amazon Bedrock-modeller (for både generering av innebygde representasjoner og tagging), skrive data til OpenSearch-indekser, og utføre lese-/skriveoperasjoner på Amazon S3-bøtter der videoinnholdet og de behandlede utdataene dine befinner seg.
Her er et eksempel på en grunnleggende IAM-policystruktur:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Denne policyen gir spesifikke tillatelser som er avgjørende for pipelinens drift. Husk å erstatte plassholderne som your-video-bucket og your-opensearch-domain med dine faktiske ressursnavn. Etter IAM-oppsettet vil du fortsette med å konfigurere S3-bøttene dine, sette opp OpenSearch Service-domenet ditt med k-NN aktivert, og utvikle orkestreringslogikken som utnytter Bedrock API-ene for innmating. Dette robuste rammeverket sikrer at medie- og underholdningsselskaper effektivt kan administrere, oppdage og tjene penger på sine stadig voksende innholdsbiblioteker, noe som markerer et betydelig sprang innen innholdsintelligens. Denne omfattende løsningen er et eksempel på hvordan moderne AI-funksjoner, spesielt innen multimodal forståelse, omdefinerer industristandarder for innholdsadministrasjon og tilgjengelighet. Det er et bevis på kraften i å integrere avanserte AI-modeller med skalerbar skyinfrastruktur for å løse virkelige Bedrifts-AI-utfordringer, og fremme fremskritt som de som er sett i Agentiske AI-arbeidsflyter.
Opprinnelig kilde
https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/Ofte stilte spørsmål
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Hold deg oppdatert
Få de siste AI-nyhetene i innboksen din.
