Skalbara Multimodala Inbäddningar: AI-datalager för Media och Underhållning

Revolutionerande Videosökning med Multimodala Inbäddningar

Media- och underhållningsbranschen översvämmas av vidsträckta hav av videoinnehåll. Från arkivmaterial till dagliga uppladdningar gör den stora volymen traditionella metoder för innehållsupptäckt – manuell taggning och nyckelordsbaserade sökningar – alltmer ineffektiva och ofta felaktiga. Dessa äldre metoder har svårt att fånga den fulla rikedomen och det nyanserade sammanhanget inbäddat i video, vilket leder till förlorade möjligheter för återanvändning av innehåll, snabbare produktion och förbättrade tittarupplevelser.

Välkommen till de multimodala inbäddningarnas era. AWS är banbrytande med en lösning som överskrider dessa begränsningar, vilket möjliggör semantiska sökmöjligheter över kolossala videodataset. Genom att utnyttja kraften i Amazon Nova-modeller och Amazon OpenSearch Service kan innehållsskapare och distributörer röra sig bortom ytliga nyckelord för att verkligen förstå och få tillgång till sina mediebibliotek. Detta innovativa tillvägagångssätt tillåter naturliga språkfrågor att utforska djupen av visuell och auditiv information, vilket ger oöverträffad precision till innehållsupptäckten.

AWS demonstrerar denna förmåga i en imponerande skala och har bearbetat 792 270 videor från AWS Open Data Registry, omfattande häpnadsväckande 8 480 timmar videoinnehåll. Detta ambitiösa åtagande, som tog bara 41 timmar att bearbeta över 30,5 miljoner sekunder video, belyser skalbarheten och effektiviteten i denna AI-drivna strategi. Den första årets kostnad, inklusive engångsintag och årlig OpenSearch Service, uppskattades till konkurrenskraftiga 23 632 USD (med OpenSearch Service Reserved Instances) till 27 328 USD (med efterfrågestyrd). En sådan lösning förvandlar i grunden hur medieföretag interagerar med sina digitala tillgångar, vilket öppnar nya vägar för innehållsmonetarisering och produktionsarbetsflöden. Detta paradigmskifte mot semantisk förståelse är en kritisk utveckling för AI för Företag inom media.

Förståelse för den Skalbara Multimodala AI-Datalagringsarkitekturen

I sin kärna bygger detta kraftfulla multimodala videosöksystem på två sammankopplade arbetsflöden: videoinmatning och sökning. Dessa komponenter integreras sömlöst för att skapa ett AI-datalager som förstår och gör de intrikata detaljerna i videoinnehåll sökbara.

Videoinmatningspipeline

Inmatningspipelinen är konstruerad för parallell bearbetning och effektivitet. Den använder fyra Amazon EC2 c7i.48xlarge-instanser, som orkestrerar upp till 600 parallella arbetare för att uppnå en bearbetningshastighet på 19 400 videor per timme. Videor som initialt laddats upp till Amazon S3 bearbetas sedan av det asynkrona API:et för Amazon Nova Multimodala Inbäddningar. Detta API segmenterar intelligent videor i optimala 15-sekundersbitar – en balans mellan att fånga betydande scenförändringar och att hantera volymen av genererade inbäddningar. Varje segment omvandlas sedan till en 1024-dimensionell inbäddning, som representerar dess kombinerade audiovisuella funktioner. Medan 3072-dimensionella inbäddningar erbjuder högre trohet, ger det 1024-dimensionella alternativet en 3 gånger lagringskostnadsbesparing med minimal påverkan på noggrannheten för denna applikation, vilket gör det till ett pragmatiskt val för skala.

För att ytterligare förbättra sökbarheten används Amazon Nova Pro (eller den nyare, mer kostnadseffektiva Nova 2 Lite) för att generera 10-15 beskrivande taggar per video från en fördefinierad taxonomi. Detta dubbla tillvägagångssätt säkerställer att innehållet kan upptäckas både genom semantisk likhet och traditionell nyckelordsmatchning. Dessa inbäddningar lagras i ett OpenSearch k-NN-index, optimerat för vektorsökningslikhet, medan de beskrivande taggarna indexeras i ett separat textindex. Denna separation möjliggör flexibel och effektiv frågor. Pipelinen hanterar Bedrocks samtidighetbegränsningar (30 samtidiga jobb per konto) genom en robust jobbkön och avfrågningsmekanism, vilket säkerställer kontinuerlig och följsam bearbetning.

Nedan är en visuell representation av denna sofistikerade inmatningsprocess:

Figur 1: Videoinmatningspipeline som visar flödet från S3-videolagring via Nova Multimodala Inbäddningar och Nova Pro till dubbla OpenSearch-index.

Stärka Olika Videosökningsmöjligheter

Sökarkitekturen är designad för mångsidighet och erbjuder flera lägen för innehållsupptäckt:

Text-till-video-sökning: Användare kan mata in naturliga språkfrågor, såsom 'en drönarbild av en livlig stad på natten' eller 'en närbild av en kock som förbereder en gourmetmåltid'. Systemet konverterar dessa frågor till inbäddningar och använder sedan OpenSearch k-NN-indexet för att hitta videosegment eller hela videor som semantiskt matchar beskrivningen, även om de exakta orden inte finns i någon metadata. Detta är idealiskt för intuitiv innehållsupptäckt och storyboard-skapande.
Video-till-video-sökning: För scenarier där en användare har ett videoklipp och vill hitta liknande innehåll, är detta läge utmärkt. Genom att jämföra inbäddningarna av den inmatade videon direkt med dem i OpenSearch k-NN-indexet, kan systemet identifiera visuellt och auditivt analogt innehåll. Detta är ovärderligt för att identifiera B-roll-material, säkerställa innehållskonsistens eller upptäcka derivatverk.
Hybridsökning: Hybridsökning kombinerar det bästa av två världar och integrerar vektorslikhet med traditionell nyckelordsmatchning. Den föreslagna lösningen använder ett viktat tillvägagångssätt (t.ex. 70% vektorslikhet och 30% nyckelordsmatchning). Detta säkerställer hög noggrannhet och relevans, vilket gör att specifik metadata kan styra sökningen medan semantisk förståelse ger breda kontextuella matchningar. Detta tillvägagångssätt är särskilt effektivt för komplexa frågor som drar nytta av både precisa taggar och konceptuell förståelse.

Figur 2: Videosökningsarkitektur som visar tre söklägen – text-till-video, video-till-video och hybridsökning som kombinerar k-NN och BM25.

Kostnadseffektiv Driftsättning och Förutsättningar

Att driftsätta ett så sofistikerat AI-datalager kräver noggrant övervägande av infrastruktur och kostnader, vilket AWS har optimerat för effektivitet. Den totala kostnaden för att bearbeta de omfattande datamängderna, cirka 8 480 timmar videoinnehåll, uppgick till en uppskattad total för första året på 27 328 USD (med OpenSearch efterfrågestyrd) eller 23 632 USD (med OpenSearch Service Reserved Instances).

Inmatningsuppdelningen belyser de viktigaste kostnadsdrivarna:

Amazon EC2-beräkning: 421 USD (4x c7i.48xlarge spot-instanser i 41 timmar)
Amazon Bedrock Nova Multimodala Inbäddningar: 17 096 USD (30,5 miljoner sekunder till 0,00056 USD/sekund batch-prissättning)
Nova Pro-taggning: 571 USD (792 000 videor, cirka 600 tokens/video i genomsnitt)
Amazon OpenSearch Service: 9 240 USD (efterfrågestyrd årlig) eller 5 544 USD (Reserverad årlig)

Förutsättningar för Implementering: För att replikera eller anpassa denna lösning behöver du:

Ett AWS-konto med åtkomst till Amazon Bedrock i us-east-1.
Python 3.9 eller senare.
AWS Command Line Interface (AWS CLI) konfigurerad med lämpliga uppgifter.
En Amazon OpenSearch Service-domän (r6g.large eller större rekommenderas), version 2.11 eller senare, med k-NN-plugin aktiverat.
En Amazon S3-bucket för videolagring och inbäddningsutdata.
AWS Identity and Access Management (IAM)-behörigheter för Amazon Bedrock, OpenSearch Service och Amazon S3.

Lösningen utnyttjar specifika AWS-tjänster och modeller:

Amazon Bedrock med amazon.nova-2-multimodal-embeddings-v1:0 för inbäddningar.
Amazon Bedrock med us.amazon.nova-pro-v1:0 eller us.amazon.nova-2-lite-v1:0 för taggning.
Amazon OpenSearch Service 2.11+ med k-NN-plugin.
Amazon S3 för lagring.

Implementera den Multimodala Videosökningslösningen

Att komma igång med denna arkitektur innebär en strukturerad strategi för att ställa in din AWS-miljö. Det första avgörande steget är att etablera de nödvändiga behörigheterna.

Steg 1: Skapa IAM-roller och -policyer

Du måste skapa en IAM-roll som ger din applikation eller tjänst behörighet att interagera med de olika AWS-komponenterna. Denna roll måste inkludera behörigheter att anropa Amazon Bedrock-modeller (för både inbäddningsgenerering och taggning), skriva data till OpenSearch-index och utföra läs-/skrivoperationer på Amazon S3-buckets där ditt videoinnehåll och bearbetade utdata finns.

Här är ett exempel på en grundläggande IAM-policystruktur:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Denna policy beviljar specifika behörigheter som är avgörande för pipelinens funktion. Kom ihåg att ersätta platshållare som your-video-bucket och your-opensearch-domain med dina faktiska resursnamn. Efter IAM-konfigurationen skulle du fortsätta med att konfigurera dina S3-buckets, ställa in din OpenSearch Service-domän med k-NN aktiverat och utveckla orkestreringslogiken som utnyttjar Bedrock API:er för inmatning. Detta robusta ramverk säkerställer att medie- och underhållningsföretag effektivt kan hantera, upptäcka och tjäna pengar på sina ständigt växande innehållsbibliotek, vilket markerar ett betydande språng inom innehållsintelligens. Denna omfattande lösning är ett exempel på hur moderna AI-funktioner, särskilt inom multimodal förståelse, omdefinierar branschstandarder för innehållshantering och tillgänglighet. Det är ett bevis på kraften i att integrera avancerade AI-modeller med skalbar molninfrastruktur för att lösa verkliga AI för Företag-utmaningar, vilket främjar framsteg liknande dem som ses i Agentic AI-arbetsflöden.

Originalkälla

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Vanliga frågor

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela