Škálovateľné multimodálne embeddingy: Dátové jazero AI pre médiá a zábavný priemysel

Revolúcia vo vyhľadávaní videí pomocou multimodálnych embeddingov

Mediálny a zábavný priemysel je zaplavený rozsiahlymi oceánmi video obsahu. Od archívnych záberov po denné nahrávky, samotný objem spôsobuje, že tradičné metódy objavovania obsahu — manuálne označovanie a vyhľadávanie založené na kľúčových slovách — sú čoraz neefektívnejšie a často nepresné. Tieto zastarané prístupy sa snažia zachytiť celú bohatosť a nuansovaný kontext vložený do videa, čo vedie k zmeškaným príležitostiam pre opätovné použitie obsahu, rýchlejšiu produkciu a vylepšené divácke zážitky.

Vstupujeme do éry multimodálnych embeddingov. AWS je priekopníkom riešenia, ktoré presahuje tieto obmedzenia, umožňujúc sémantické vyhľadávacie schopnosti naprieč kolosálnymi súbormi video dát. Využitím sily modelov Amazon Nova a Amazon OpenSearch Service sa tvorcovia a distribútori obsahu môžu posunúť za povrchné kľúčové slová, aby skutočne porozumeli a získali prístup k svojim mediálnym knižniciam. Tento inovatívny prístup umožňuje dotazom v prirodzenom jazyku preniknúť do hĺbky vizuálnych a zvukových informácií, čím prináša bezprecedentnú presnosť pri objavovaní obsahu.

Demonštrujúc túto schopnosť v pôsobivom rozsahu, AWS spracovalo 792 270 videí z AWS Open Data Registry, čo predstavuje ohromujúcich 8 480 hodín video obsahu. Tento ambiciózny počin, ktorý trval len 41 hodín na spracovanie viac ako 30,5 milióna sekúnd videa, zdôrazňuje škálovateľnosť a efektivitu tohto prístupu poháňaného AI. Náklady za prvý rok, vrátane jednorazového ingestovania a ročnej služby OpenSearch Service, boli odhadnuté na vysoko konkurencieschopných 23 632 USD (s rezervovanými inštanciami OpenSearch Service) až 27 328 USD (s on-demand). Takéto riešenie zásadne mení spôsob, akým mediálne spoločnosti interagujú so svojimi digitálnymi aktívami, otvárajúc nové možnosti pre monetizáciu obsahu a produkčné pracovné postupy. Tento posun paradigmy smerom k sémantickému porozumeniu je kritickým vývojom pre podnikovú AI v médiách.

Pochopenie škálovateľnej architektúry dátového jazera AI s multimodálnymi embeddingmi

Vo svojej podstate je tento výkonný multimodálny systém na vyhľadávanie videí postavený na dvoch prepojených pracovných postupoch: ingestovanie videí a vyhľadávanie. Tieto komponenty sa bezproblémovo integrujú a vytvárajú dátové jazero AI, ktoré rozumie zložitým detailom video obsahu a robí ich vyhľadateľnými.

Pipeline na ingestovanie videí

Pipeline na ingestovanie je navrhnutá pre paralelné spracovanie a efektivitu. Využíva štyri inštancie Amazon EC2 c7i.48xlarge, orchestráciou až 600 paralelných pracovníkov na dosiahnutie rýchlosti spracovania 19 400 videí za hodinu. Videá pôvodne nahrané do Amazon S3 sú potom spracované asynchrónnym API Amazon Nova Multimodal Embeddings. Toto API inteligentne segmentuje videá do optimálnych 15-sekundových častí — rovnováha medzi zachytením významných zmien scény a riadením objemu generovaných embeddingov. Každý segment je potom transformovaný na 1024-rozmerný embedding, ktorý predstavuje jeho kombinované audiovizuálne vlastnosti. Zatiaľ čo 3072-rozmerné embeddingy ponúkajú vyššiu vernosť, 1024-rozmerná možnosť poskytuje trojnásobnú úsporu nákladov na úložisko s minimálnym dopadom na presnosť pre túto aplikáciu, čo z nej robí pragmatickú voľbu pre škálovanie.

Na ďalšie zlepšenie vyhľadávateľnosti sa používa Amazon Nova Pro (alebo novší, nákladovo efektívnejší Nova 2 Lite) na generovanie 10-15 popisných značiek na video z preddefinovaného taxonomického systému. Tento duálny prístup zabezpečuje, že obsah je objaviteľný prostredníctvom sémantickej podobnosti aj tradičného priraďovania kľúčových slov. Tieto embeddingy sú uložené v OpenSearch k-NN indexe, optimalizovanom pre vyhľadávanie vektorovej podobnosti, zatiaľ čo popisné značky sú indexované v samostatnom textovom indexe. Toto oddelenie umožňuje flexibilné a efektívne dopytovanie. Pipeline riadi limity súbežnosti Bedrocku (30 súbežných úloh na účet) prostredníctvom robustnej fronty úloh a mechanizmu dotazovania, čím zabezpečuje nepretržité a súladné spracovanie.

Nižšie je vizuálna reprezentácia tohto sofistikovaného procesu ingestovania:

Obrázok 1: Pipeline na ingestovanie videí zobrazujúca tok dát z úložiska videí S3 cez Nova Multimodal Embeddings a Nova Pro do duálnych OpenSearch indexov

Posilnenie rôznorodých možností vyhľadávania videí

Architektúra vyhľadávania je navrhnutá pre všestrannosť a ponúka viacero režimov objavovania obsahu:

Vyhľadávanie textu vo videu: Používatelia môžu zadávať dotazy v prirodzenom jazyku, ako napríklad "záber dronom na rušné mesto v noci" alebo "detail šéfkuchára pripravujúceho gurmánske jedlo". Systém prevedie tieto dotazy na embeddingy a potom využije OpenSearch k-NN index na nájdenie segmentov videí alebo celých videí, ktoré sa sémanticky zhodujú s popisom, aj keď presné slová nie sú prítomné v žiadnych metadátach. To je ideálne pre intuitívne objavovanie obsahu a tvorbu storyboardov.
Vyhľadávanie videa vo videu: Pre scenáre, kde má používateľ videoklip a chce nájsť podobný obsah, tento režim vyniká. Porovnaním embeddingov vstupného videa priamo s tými v OpenSearch k-NN indexe dokáže systém identifikovať vizuálne a zvukovo analogický obsah. To je neoceniteľné pre identifikáciu B-roll záberov, zabezpečenie konzistencie obsahu alebo objavovanie odvodených diel.
Hybridné vyhľadávanie: Kombinujúc to najlepšie z oboch svetov, hybridné vyhľadávanie integruje vektorovú podobnosť s tradičným priraďovaním kľúčových slov. Navrhované riešenie používa vážený prístup (napr. 70% vektorová podobnosť a 30% priraďovanie kľúčových slov). To zaisťuje vysokú presnosť a relevanciu, umožňujúc špecifickým metadátam usmerňovať vyhľadávanie, zatiaľ čo sémantické porozumenie poskytuje široké kontextuálne zhody. Tento prístup je obzvlášť efektívny pre komplexné dotazy, ktoré ťažia z presných značiek aj konceptuálneho porozumenia.

Obrázok 2: Architektúra vyhľadávania videí demonštrujúca tri režimy vyhľadávania – text vo videu, video vo videu a hybridné vyhľadávanie kombinujúce k-NN a BM25

Nákladovo efektívne nasadenie a predpoklady

Nasadenie takého sofistikovaného dátového jazera AI si vyžaduje starostlivé zváženie infraštruktúry a nákladov, ktoré AWS optimalizovalo pre efektivitu. Celkové náklady na spracovanie rozsiahlych súborov dát, približne 8 480 hodín video obsahu, dosiahli odhadovanú celkovú sumu za prvý rok 27 328 USD (s OpenSearch on-demand) alebo 23 632 USD (s rezervovanými inštanciami OpenSearch Service).

Rozpis nákladov na ingestovanie zdôrazňuje kľúčové faktory nákladov:

Výpočtový výkon Amazon EC2: 421 USD (4x inštancie c7i.48xlarge typu spot na 41 hodín)
Amazon Bedrock Nova Multimodal Embeddings: 17 096 USD (30,5 milióna sekúnd pri cene 0,00056 USD/sekundu za dávkové spracovanie)
Označovanie Nova Pro: 571 USD (792 tisíc videí, priemerne približne 600 tokenov/video)
Amazon OpenSearch Service: 9 240 USD (ročne on-demand) alebo 5 544 USD (ročne rezervované)

Predpoklady pre implementáciu: Na replikáciu alebo adaptáciu tohto riešenia budete potrebovať:

Účet AWS s prístupom k Amazon Bedrock v us-east-1.
Python 3.9 alebo novší.
AWS Command Line Interface (AWS CLI) nakonfigurované s príslušnými povereniami.
Doménu Amazon OpenSearch Service (odporúča sa r6g.large alebo väčšia), verziu 2.11 alebo novšiu, s povoleným k-NN pluginom.
S3 bucket Amazon pre ukladanie videí a výstupov embeddingov.
Povolenia AWS Identity and Access Management (IAM) pre Amazon Bedrock, OpenSearch Service a Amazon S3.

Riešenie využíva špecifické služby a modely AWS:

Amazon Bedrock s amazon.nova-2-multimodal-embeddings-v1:0 pre embeddingy.
Amazon Bedrock s us.amazon.nova-pro-v1:0 alebo us.amazon.nova-2-lite-v1:0 pre označovanie.
Amazon OpenSearch Service 2.11+ s k-NN pluginom.
Amazon S3 pre úložisko.

Implementácia multimodálneho riešenia na vyhľadávanie videí

Začatie s touto architektúrou zahŕňa štruktúrovaný prístup k nastaveniu vášho prostredia AWS. Prvým kľúčovým krokom je stanovenie potrebných povolení.

Krok 1: Vytvorenie rolí a politík IAM

Budete musieť vytvoriť rolu IAM, ktorá udelí vašej aplikácii alebo službe oprávnenie interagovať s rôznymi komponentmi AWS. Táto rola musí zahŕňať povolenia na vyvolanie modelov Amazon Bedrock (pre generovanie embeddingov aj označovanie), zápis dát do indexov OpenSearch a vykonávanie operácií čítania/zápisu na S3 bucketoch Amazon, kde sa nachádza váš video obsah a spracované výstupy.

Tu je príklad základnej štruktúry politiky IAM:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Táto politika udeľuje špecifické povolenia nevyhnutné pre prevádzku pipeline. Nezabudnite nahradiť zástupné symboly ako your-video-bucket a your-opensearch-domain vašimi skutočnými názvami zdrojov. Po nastavení IAM by ste pokračovali s konfiguráciou vašich S3 bucketov, nastavením vašej domény OpenSearch Service s povoleným k-NN a vývojom orchestrácie logiky, ktorá využíva API Bedrock pre ingestovanie. Tento robustný rámec zaisťuje, že mediálne a zábavné spoločnosti môžu efektívne spravovať, objavovať a monetizovať svoje neustále rastúce knižnice obsahu, čo predstavuje významný skok v inteligentnom obsahu. Toto komplexné riešenie je príkladom toho, ako moderné možnosti AI, najmä v multimodálnom porozumení, predefinujú priemyselné štandardy pre správu a dostupnosť obsahu. Je to dôkaz sily integrácie pokročilých modelov AI so škálovateľnou cloudovou infraštruktúrou na riešenie skutočných výziev podnikovej AI, podporujúc pokroky podobné tým, ktoré boli pozorované v agentných pracovných postupoch AI.

Pôvodný zdroj

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Často kladené otázky

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Buďte informovaní

Dostávajte najnovšie AI správy do schránky.

Zdieľať