Revolutionerande Videosökning med Multimodala Inbäddningar
Media- och underhållningsbranschen översvämmas av vidsträckta hav av videoinnehåll. Från arkivmaterial till dagliga uppladdningar gör den stora volymen traditionella metoder för innehållsupptäckt – manuell taggning och nyckelordsbaserade sökningar – alltmer ineffektiva och ofta felaktiga. Dessa äldre metoder har svårt att fånga den fulla rikedomen och det nyanserade sammanhanget inbäddat i video, vilket leder till förlorade möjligheter för återanvändning av innehåll, snabbare produktion och förbättrade tittarupplevelser.
Välkommen till de multimodala inbäddningarnas era. AWS är banbrytande med en lösning som överskrider dessa begränsningar, vilket möjliggör semantiska sökmöjligheter över kolossala videodataset. Genom att utnyttja kraften i Amazon Nova-modeller och Amazon OpenSearch Service kan innehållsskapare och distributörer röra sig bortom ytliga nyckelord för att verkligen förstå och få tillgång till sina mediebibliotek. Detta innovativa tillvägagångssätt tillåter naturliga språkfrågor att utforska djupen av visuell och auditiv information, vilket ger oöverträffad precision till innehållsupptäckten.
AWS demonstrerar denna förmåga i en imponerande skala och har bearbetat 792 270 videor från AWS Open Data Registry, omfattande häpnadsväckande 8 480 timmar videoinnehåll. Detta ambitiösa åtagande, som tog bara 41 timmar att bearbeta över 30,5 miljoner sekunder video, belyser skalbarheten och effektiviteten i denna AI-drivna strategi. Den första årets kostnad, inklusive engångsintag och årlig OpenSearch Service, uppskattades till konkurrenskraftiga 23 632 USD (med OpenSearch Service Reserved Instances) till 27 328 USD (med efterfrågestyrd). En sådan lösning förvandlar i grunden hur medieföretag interagerar med sina digitala tillgångar, vilket öppnar nya vägar för innehållsmonetarisering och produktionsarbetsflöden. Detta paradigmskifte mot semantisk förståelse är en kritisk utveckling för AI för Företag inom media.
Förståelse för den Skalbara Multimodala AI-Datalagringsarkitekturen
I sin kärna bygger detta kraftfulla multimodala videosöksystem på två sammankopplade arbetsflöden: videoinmatning och sökning. Dessa komponenter integreras sömlöst för att skapa ett AI-datalager som förstår och gör de intrikata detaljerna i videoinnehåll sökbara.
Videoinmatningspipeline
Inmatningspipelinen är konstruerad för parallell bearbetning och effektivitet. Den använder fyra Amazon EC2 c7i.48xlarge-instanser, som orkestrerar upp till 600 parallella arbetare för att uppnå en bearbetningshastighet på 19 400 videor per timme. Videor som initialt laddats upp till Amazon S3 bearbetas sedan av det asynkrona API:et för Amazon Nova Multimodala Inbäddningar. Detta API segmenterar intelligent videor i optimala 15-sekundersbitar – en balans mellan att fånga betydande scenförändringar och att hantera volymen av genererade inbäddningar. Varje segment omvandlas sedan till en 1024-dimensionell inbäddning, som representerar dess kombinerade audiovisuella funktioner. Medan 3072-dimensionella inbäddningar erbjuder högre trohet, ger det 1024-dimensionella alternativet en 3 gånger lagringskostnadsbesparing med minimal påverkan på noggrannheten för denna applikation, vilket gör det till ett pragmatiskt val för skala.
För att ytterligare förbättra sökbarheten används Amazon Nova Pro (eller den nyare, mer kostnadseffektiva Nova 2 Lite) för att generera 10-15 beskrivande taggar per video från en fördefinierad taxonomi. Detta dubbla tillvägagångssätt säkerställer att innehållet kan upptäckas både genom semantisk likhet och traditionell nyckelordsmatchning. Dessa inbäddningar lagras i ett OpenSearch k-NN-index, optimerat för vektorsökningslikhet, medan de beskrivande taggarna indexeras i ett separat textindex. Denna separation möjliggör flexibel och effektiv frågor. Pipelinen hanterar Bedrocks samtidighetbegränsningar (30 samtidiga jobb per konto) genom en robust jobbkön och avfrågningsmekanism, vilket säkerställer kontinuerlig och följsam bearbetning.
Nedan är en visuell representation av denna sofistikerade inmatningsprocess:

Figur 1: Videoinmatningspipeline som visar flödet från S3-videolagring via Nova Multimodala Inbäddningar och Nova Pro till dubbla OpenSearch-index.
Stärka Olika Videosökningsmöjligheter
Sökarkitekturen är designad för mångsidighet och erbjuder flera lägen för innehållsupptäckt:
-
Text-till-video-sökning: Användare kan mata in naturliga språkfrågor, såsom 'en drönarbild av en livlig stad på natten' eller 'en närbild av en kock som förbereder en gourmetmåltid'. Systemet konverterar dessa frågor till inbäddningar och använder sedan OpenSearch k-NN-indexet för att hitta videosegment eller hela videor som semantiskt matchar beskrivningen, även om de exakta orden inte finns i någon metadata. Detta är idealiskt för intuitiv innehållsupptäckt och storyboard-skapande.
-
Video-till-video-sökning: För scenarier där en användare har ett videoklipp och vill hitta liknande innehåll, är detta läge utmärkt. Genom att jämföra inbäddningarna av den inmatade videon direkt med dem i OpenSearch k-NN-indexet, kan systemet identifiera visuellt och auditivt analogt innehåll. Detta är ovärderligt för att identifiera B-roll-material, säkerställa innehållskonsistens eller upptäcka derivatverk.
-
Hybridsökning: Hybridsökning kombinerar det bästa av två världar och integrerar vektorslikhet med traditionell nyckelordsmatchning. Den föreslagna lösningen använder ett viktat tillvägagångssätt (t.ex. 70% vektorslikhet och 30% nyckelordsmatchning). Detta säkerställer hög noggrannhet och relevans, vilket gör att specifik metadata kan styra sökningen medan semantisk förståelse ger breda kontextuella matchningar. Detta tillvägagångssätt är särskilt effektivt för komplexa frågor som drar nytta av både precisa taggar och konceptuell förståelse.

Figur 2: Videosökningsarkitektur som visar tre söklägen – text-till-video, video-till-video och hybridsökning som kombinerar k-NN och BM25.
Kostnadseffektiv Driftsättning och Förutsättningar
Att driftsätta ett så sofistikerat AI-datalager kräver noggrant övervägande av infrastruktur och kostnader, vilket AWS har optimerat för effektivitet. Den totala kostnaden för att bearbeta de omfattande datamängderna, cirka 8 480 timmar videoinnehåll, uppgick till en uppskattad total för första året på 27 328 USD (med OpenSearch efterfrågestyrd) eller 23 632 USD (med OpenSearch Service Reserved Instances).
Inmatningsuppdelningen belyser de viktigaste kostnadsdrivarna:
- Amazon EC2-beräkning: 421 USD (4x c7i.48xlarge spot-instanser i 41 timmar)
- Amazon Bedrock Nova Multimodala Inbäddningar: 17 096 USD (30,5 miljoner sekunder till 0,00056 USD/sekund batch-prissättning)
- Nova Pro-taggning: 571 USD (792 000 videor, cirka 600 tokens/video i genomsnitt)
- Amazon OpenSearch Service: 9 240 USD (efterfrågestyrd årlig) eller 5 544 USD (Reserverad årlig)
Förutsättningar för Implementering: För att replikera eller anpassa denna lösning behöver du:
- Ett AWS-konto med åtkomst till Amazon Bedrock i
us-east-1. - Python 3.9 eller senare.
- AWS Command Line Interface (AWS CLI) konfigurerad med lämpliga uppgifter.
- En Amazon OpenSearch Service-domän (r6g.large eller större rekommenderas), version 2.11 eller senare, med k-NN-plugin aktiverat.
- En Amazon S3-bucket för videolagring och inbäddningsutdata.
- AWS Identity and Access Management (IAM)-behörigheter för Amazon Bedrock, OpenSearch Service och Amazon S3.
Lösningen utnyttjar specifika AWS-tjänster och modeller:
- Amazon Bedrock med
amazon.nova-2-multimodal-embeddings-v1:0för inbäddningar. - Amazon Bedrock med
us.amazon.nova-pro-v1:0ellerus.amazon.nova-2-lite-v1:0för taggning. - Amazon OpenSearch Service 2.11+ med k-NN-plugin.
- Amazon S3 för lagring.
Implementera den Multimodala Videosökningslösningen
Att komma igång med denna arkitektur innebär en strukturerad strategi för att ställa in din AWS-miljö. Det första avgörande steget är att etablera de nödvändiga behörigheterna.
Steg 1: Skapa IAM-roller och -policyer
Du måste skapa en IAM-roll som ger din applikation eller tjänst behörighet att interagera med de olika AWS-komponenterna. Denna roll måste inkludera behörigheter att anropa Amazon Bedrock-modeller (för både inbäddningsgenerering och taggning), skriva data till OpenSearch-index och utföra läs-/skrivoperationer på Amazon S3-buckets där ditt videoinnehåll och bearbetade utdata finns.
Här är ett exempel på en grundläggande IAM-policystruktur:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Denna policy beviljar specifika behörigheter som är avgörande för pipelinens funktion. Kom ihåg att ersätta platshållare som your-video-bucket och your-opensearch-domain med dina faktiska resursnamn. Efter IAM-konfigurationen skulle du fortsätta med att konfigurera dina S3-buckets, ställa in din OpenSearch Service-domän med k-NN aktiverat och utveckla orkestreringslogiken som utnyttjar Bedrock API:er för inmatning. Detta robusta ramverk säkerställer att medie- och underhållningsföretag effektivt kan hantera, upptäcka och tjäna pengar på sina ständigt växande innehållsbibliotek, vilket markerar ett betydande språng inom innehållsintelligens. Denna omfattande lösning är ett exempel på hur moderna AI-funktioner, särskilt inom multimodal förståelse, omdefinierar branschstandarder för innehållshantering och tillgänglighet. Det är ett bevis på kraften i att integrera avancerade AI-modeller med skalbar molninfrastruktur för att lösa verkliga AI för Företag-utmaningar, vilket främjar framsteg liknande dem som ses i Agentic AI-arbetsflöden.
Vanliga frågor
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Håll dig uppdaterad
Få de senaste AI-nyheterna i din inkorg.
