Multimodální vnoření ve velkém měřítku: Datové jezero AI pro média a zábavu

Revoluce ve vyhledávání videí s multimodálními vnořeními

Mediální a zábavní průmysl je zaplaven obrovskými oceány video obsahu. Od archivních záběrů po každodenní nahrávky, samotný objem činí tradiční metody objevování obsahu – ruční tagování a vyhledávání na základě klíčových slov – stále neefektivnějšími a často nepřesnými. Tyto zastaralé přístupy se snaží zachytit plnou bohatost a nuancovaný kontext obsažený ve videu, což vede k promarněným příležitostem pro opětovné použití obsahu, rychlejší produkci a vylepšené divácké zážitky.

Vstupte do éry multimodálních vnoření. AWS průkopnicky vyvíjí řešení, které překračuje tato omezení, a umožňuje sémantické vyhledávací funkce napříč kolosálními video datovými sadami. Využitím síly modelů Amazon Nova a Amazon OpenSearch Service se tvůrci a distributoři obsahu mohou posunout za povrchní klíčová slova k opravdovému pochopení a přístupu ke svým mediálním knihovnám. Tento inovativní přístup umožňuje dotazům v přirozeném jazyce prozkoumat hloubky vizuálních a zvukových informací a přináší bezprecedentní přesnost do objevování obsahu.

Demonstrující tuto schopnost v působivém měřítku, AWS zpracovala 792 270 videí z AWS Open Data Registry, což zahrnuje ohromujících 8 480 hodin video obsahu. Tento ambiciózní podnik, který trval pouhých 41 hodin a zpracoval přes 30,5 milionu sekund videa, zdůrazňuje škálovatelnost a efektivitu tohoto přístupu řízeného AI. Náklady za první rok, včetně jednorázového ingestování a ročního OpenSearch Service, byly odhadnuty na vysoce konkurenceschopných 23 632 USD (s OpenSearch Service Reserved Instances) až 27 328 USD (s on-demand). Takové řešení zásadně transformuje způsob, jakým mediální společnosti interagují se svými digitálními aktivy, otevírá nové cesty pro monetizaci obsahu a produkční pracovní postupy. Tento posun paradigmatu směrem k sémantickému porozumění je kritickým vývojem pro Podnikovou AI v médiích.

Pochopení architektury škálovatelného multimodálního datového jezera AI

Ve svém jádru je tento výkonný multimodální systém pro vyhledávání videí postaven na dvou vzájemně propojených pracovních postupech: ingestování videa a vyhledávání. Tyto komponenty se bezproblémově integrují a vytvářejí datové jezero AI, které rozumí a zpřístupňuje pro vyhledávání složité detaily video obsahu.

Pipeline pro ingestování videí

Pipeline pro ingestování je navržena pro paralelní zpracování a efektivitu. Využívá čtyři instance Amazon EC2 c7i.48xlarge, které orchestrjí až 600 paralelních pracovníků k dosažení rychlosti zpracování 19 400 videí za hodinu. Videa, původně nahraná do Amazon S3, jsou poté zpracována asynchronním API služby Amazon Nova Multimodal Embeddings. Toto API inteligentně segmentuje videa do optimálních 15sekundových segmentů – což je rovnováha mezi zachycením významných změn scény a správou objemu generovaných vnoření. Každý segment je poté transformován na 1024-dimenzionální vnoření, představující jeho kombinované audiovizuální prvky. Zatímco 3072-dimenzionální vnoření nabízejí vyšší věrnost, 1024-dimenzionální varianta poskytuje 3x úsporu nákladů na úložiště s minimálním dopadem na přesnost pro tuto aplikaci, což z ní činí pragmatickou volbu pro škálování.

Pro další zlepšení vyhledávatelnosti se používá Amazon Nova Pro (nebo novější, nákladově efektivnější Nova 2 Lite) k generování 10-15 popisných tagů na video z předdefinované taxonomie. Tento dvojí přístup zajišťuje, že obsah je objevovatelný jak prostřednictvím sémantické podobnosti, tak tradičního vyhledávání klíčových slov. Tato vnoření jsou uložena v k-NN indexu OpenSearch, optimalizovaném pro vyhledávání vektorové podobnosti, zatímco popisné tagy jsou indexovány v samostatném textovém indexu. Toto oddělení umožňuje flexibilní a efektivní dotazování. Pipeline spravuje limity souběžnosti Bedrocku (30 souběžných úloh na účet) prostřednictvím robustní fronty úloh a mechanismu dotazování, což zajišťuje nepřetržité a vyhovující zpracování.

Níže je vizuální reprezentace tohoto sofistikovaného procesu ingestování:

Obrázek 1: Pipeline pro ingestování videí ukazující tok dat z úložiště videí S3 přes Nova Multimodal Embeddings a Nova Pro do duálních OpenSearch indexů

Posílení rozmanitých funkcí vyhledávání videí

Vyhledávací architektura je navržena pro všestrannost a nabízí více režimů objevování obsahu:

Vyhledávání text-to-video: Uživatelé mohou zadávat dotazy v přirozeném jazyce, jako například 'záběr dronem na rušné město v noci' nebo 'detail kuchaře připravujícího gurmánské jídlo'. Systém převede tyto dotazy na vnoření a poté využije k-NN index OpenSearch k nalezení video segmentů nebo celých videí, které sémanticky odpovídají popisu, i když přesná slova nejsou přítomna v žádných metadatech. To je ideální pro intuitivní objevování obsahu a tvorbu storyboardů.
Vyhledávání video-to-video: Pro scénáře, kdy má uživatel videoklip a chce najít podobný obsah, tento režim vyniká. Porovnáním vnoření vstupního videa přímo s těmi v k-NN indexu OpenSearch může systém identifikovat vizuálně a zvukově analogický obsah. To je neocenitelné pro identifikaci B-roll záběrů, zajištění konzistence obsahu nebo objevování odvozených děl.
Hybridní vyhledávání: Kombinuje to nejlepší z obou světů, hybridní vyhledávání integruje vektorovou podobnost s tradičním vyhledáváním klíčových slov. Navržené řešení používá vážený přístup (např. 70 % vektorové podobnosti a 30 % shody klíčových slov). To zajišťuje vysokou přesnost a relevantnost, což umožňuje konkrétním metadatům vést vyhledávání, zatímco sémantické porozumění poskytuje široké kontextové shody. Tento přístup je zvláště účinný pro složité dotazy, které těží jak z přesných tagů, tak z konceptuálního porozumění.

Obrázek 2: Architektura vyhledávání videí demonstrující tři režimy vyhledávání – text-to-video, video-to-video a hybridní vyhledávání kombinující k-NN a BM25

Nákladově efektivní nasazení a předpoklady

Nasazení takto sofistikovaného datového jezera AI vyžaduje pečlivé zvážení infrastruktury a nákladů, které AWS optimalizovalo pro efektivitu. Celkové náklady na zpracování rozsáhlých datových sad, přibližně 8 480 hodin video obsahu, dosáhly odhadované celkové částky za první rok 27 328 USD (s OpenSearch on-demand) nebo 23 632 USD (s OpenSearch Service Reserved Instances).

Rozpis ingestování zdůrazňuje klíčové faktory nákladů:

Výpočetní výkon Amazon EC2: 421 USD (4x c7i.48xlarge spot instances po dobu 41 hodin)
Amazon Bedrock Nova Multimodal Embeddings: 17 096 USD (30,5 milionu sekund při dávkové ceně 0,00056 USD/sekundu)
Označování Nova Pro: 571 USD (792 tisíc videí, průměrně přibližně 600 tokenů/video)
Amazon OpenSearch Service: 9 240 USD (ročně on-demand) nebo 5 544 USD (ročně Reserved)

Předpoklady pro implementaci: Pro replikaci nebo adaptaci tohoto řešení budete potřebovat:

Účet AWS s přístupem k Amazon Bedrock v us-east-1.
Python 3.9 nebo novější.
Rozhraní příkazového řádku AWS (AWS CLI) nakonfigurované s příslušnými pověřeními.
Doménu Amazon OpenSearch Service (doporučeno r6g.large nebo větší), verze 2.11 nebo novější, s povoleným k-NN pluginem.
S3 bucket Amazon pro ukládání videí a výstupů vnoření.
Oprávnění AWS Identity and Access Management (IAM) pro Amazon Bedrock, OpenSearch Service a Amazon S3.

Řešení využívá specifické služby a modely AWS:

Amazon Bedrock s amazon.nova-2-multimodal-embeddings-v1:0 pro vnoření.
Amazon Bedrock s us.amazon.nova-pro-v1:0 nebo us.amazon.nova-2-lite-v1:0 pro označování.
Amazon OpenSearch Service 2.11+ s k-NN pluginem.
Amazon S3 pro ukládání.

Implementace řešení multimodálního vyhledávání videí

Začátek s touto architekturou zahrnuje strukturovaný přístup k nastavení vašeho prostředí AWS. Prvním zásadním krokem je nastavení nezbytných oprávnění.

Krok 1: Vytvořte IAM role a zásady

Budete muset vytvořit IAM roli, která vaší aplikaci nebo službě udělí oprávnění k interakci s různými komponentami AWS. Tato role musí zahrnovat oprávnění k vyvolání modelů Amazon Bedrock (pro generování vnoření i označování), zápisu dat do indexů OpenSearch a provádění operací čtení/zápisu na S3 bucketech Amazon, kde se nachází váš video obsah a zpracované výstupy.

Zde je příklad základní struktury IAM zásad:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Tato zásada uděluje specifická oprávnění nezbytná pro provoz pipeline. Nezapomeňte nahradit zástupné symboly jako your-video-bucket a your-opensearch-domain skutečnými názvy vašich zdrojů. Po nastavení IAM byste pokračovali s konfigurací S3 bucketů, nastavením domény OpenSearch Service s povoleným k-NN a vývojem orchestrální logiky, která využívá API Bedrock pro ingestování. Tento robustní rámec zajišťuje, že mediální a zábavní společnosti mohou efektivně spravovat, objevovat a monetizovat své neustále rostoucí knihovny obsahu, což představuje významný skok v inteligenci obsahu. Toto komplexní řešení je příkladem toho, jak moderní schopnosti AI, zejména v multimodálním porozumění, redefinují průmyslové standardy pro správu a dostupnost obsahu. Je to svědectví síly integrace pokročilých modelů AI se škálovatelnou cloudovou infrastrukturou k řešení reálných Podnikových AI výzev, podporující pokroky podobné těm, které jsou k vidění v Agentních AI pracovních postupech.

Původní zdroj

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Často kladené dotazy

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Buďte v obraze

Dostávejte nejnovější AI zprávy do schránky.

Sdílet