Saklaw ng Multimodal Embeddings: AI Data Lake para sa Media at Libangan

Binabago ang Paghahanap ng Video gamit ang Multimodal Embeddings

Ang industriya ng media at libangan ay sagana sa napakaraming nilalaman ng video. Mula sa archival footage hanggang sa pang-araw-araw na pag-upload, ang napakalaking dami ay nagiging sanhi upang ang tradisyonal na mga pamamaraan ng pagtuklas ng nilalaman — manual na pag-tag at paghahanap batay sa keyword — ay lalong hindi epektibo at madalas na hindi tumpak. Ang mga lumang pamamaraang ito ay nahihirapang makuha ang buong kayamanan at pinong konteksto na nakapaloob sa loob ng video, na nagdudulot ng mga nawawalang pagkakataon para sa muling paggamit ng nilalaman, mas mabilis na produksyon, at pinahusay na karanasan ng manonood.

Narito ang panahon ng multimodal embeddings. Nagunguna ang AWS sa isang solusyon na lumalampas sa mga limitasyong ito, na nagbibigay-daan sa mga kakayahan ng semantic search sa napakalaking dataset ng video. Sa pamamagitan ng paggamit ng kapangyarihan ng mga modelo ng Amazon Nova at Amazon OpenSearch Service, ang mga tagalikha at distributor ng nilalaman ay maaaring lumampas sa mga mababaw na keyword upang tunay na maunawaan at ma-access ang kanilang mga library ng media. Ang makabagong pamamaraang ito ay nagbibigay-daan sa mga natural na query sa wika upang suriin ang lalim ng visual at auditory na impormasyon, na nagdadala ng walang kapantay na katumpakan sa pagtuklas ng nilalaman.

Nagpapakita ng kakayahang ito sa isang kahanga-hangang saklaw, pinroseso ng AWS ang 792,270 video mula sa AWS Open Data Registry, na sumasaklaw sa kahanga-hangang 8,480 oras ng nilalaman ng video. Ang ambisyosong proyektong ito, na tumagal lamang ng 41 oras upang maproseso ang mahigit 30.5 milyong segundo ng video, ay nagbibigay-diin sa scalability at kahusayan ng pamamaraang ito na hinimok ng AI. Ang gastos sa unang taon, kasama ang one-time na pagkuha at taunang OpenSearch Service, ay tinatayang nasa lubos na mapagkumpitensyang $23,632 (na may OpenSearch Service Reserved Instances) hanggang $27,328 (na may on-demand). Ang naturang solusyon ay lubos na nagbabago kung paano nakikipag-ugnayan ang mga kumpanya ng media sa kanilang mga digital asset, na nagbubukas ng mga bagong paraan para sa pagkakakitaan ng nilalaman at mga workflow ng produksyon. Ang pagbabagong ito patungo sa semantic na pag-unawa ay isang kritikal na pag-unlad para sa AI sa Negosyo sa media.

Pag-unawa sa Scalable na Multimodal AI Data Lake Architecture

Sa puso nito, ang makapangyarihang sistemang ito ng paghahanap ng multimodal na video ay binuo sa dalawang magkakaugnay na workflow: pagkuha ng video at paghahanap. Ang mga component na ito ay walang putol na nagsasama upang lumikha ng isang AI data lake na nauunawaan at nagagawang searchable ang masalimuot na detalye ng nilalaman ng video.

Pipeline ng Pagkuha ng Video

Ang pipeline ng pagkuha ay idinisenyo para sa parallel processing at kahusayan. Gumagamit ito ng apat na Amazon EC2 c7i.48xlarge instance, na nag-o-orkestra ng hanggang 600 parallel worker upang makamit ang bilis ng pagproseso na 19,400 video bawat oras. Ang mga video na unang na-upload sa Amazon S3 ay pinoproseso ng Amazon Nova Multimodal Embeddings asynchronous API. Mahusay na sinisegmento ng API na ito ang mga video sa optimal na 15-segundong chunks — isang balanse sa pagitan ng pagkuha ng makabuluhang pagbabago sa eksena at pamamahala ng dami ng nabuong embeddings. Ang bawat segment ay binabago sa isang 1024-dimensional na embedding, na kumakatawan sa pinagsamang mga tampok na audio-visual nito. Habang ang 3072-dimensional na embeddings ay nag-aalok ng mas mataas na fidelity, ang 1024-dimensional na opsyon ay nagbibigay ng 3x na pagtitipid sa gastos sa storage na may minimal na epekto sa katumpakan para sa application na ito, na ginagawa itong isang praktikal na pagpipilian para sa saklaw.

Upang higit pang mapahusay ang searchability, ginagamit ang Amazon Nova Pro (o ang mas bago, mas cost-effective na Nova 2 Lite) upang bumuo ng 10-15 naglalarawang tag bawat video mula sa isang paunang natukoy na taxonomy. Tinitiyak ng dual approach na ito na ang nilalaman ay matutuklasan sa pamamagitan ng semantic similarity at tradisyonal na keyword matching. Ang mga embedding na ito ay naka-imbak sa isang OpenSearch k-NN index, na na-optimize para sa vector similarity search, habang ang mga naglalarawang tag ay ini-index sa isang hiwalay na text index. Pinapayagan ng paghihiwalay na ito ang flexible at mahusay na pag-query. Pinamamahalaan ng pipeline ang mga limitasyon ng concurrency ng Bedrock (30 concurrent na trabaho bawat account) sa pamamagitan ng isang matatag na job queue at polling mechanism, na tinitiyak ang tuloy-tuloy at sumusunod na pagproseso.

Nasa ibaba ang isang visual na representasyon ng sopistikadong proseso ng pagkuha na ito:

Larawan 1: Pipeline ng pagkuha ng video na nagpapakita ng daloy mula sa S3 video storage sa pamamagitan ng Nova Multimodal Embeddings at Nova Pro patungo sa dalawahang OpenSearch index

Pagbibigay-kapangyarihan sa Iba't Ibang Kakayahan sa Paghahanap ng Video

Ang search architecture ay idinisenyo para sa versatility, na nag-aalok ng maraming mode ng pagtuklas ng nilalaman:

Paghahanap ng Teksto-sa-Video: Maaaring maglagay ang mga user ng natural na query sa wika, tulad ng 'isang drone shot ng isang abalang lungsod sa gabi' o 'isang close-up ng isang chef na naghahanda ng gourmet meal.' Kino-convert ng system ang mga query na ito sa embeddings, pagkatapos ay ginagamit ang OpenSearch k-NN index upang makahanap ng mga segment ng video o buong video na semantiko na tumutugma sa paglalarawan, kahit na ang eksaktong mga salita ay hindi naroroon sa anumang metadata. Ito ay perpekto para sa intuitive na pagtuklas ng nilalaman at storyboarding.
Paghahanap ng Video-sa-Video: Para sa mga sitwasyon kung saan ang isang user ay may video clip at gustong makahanap ng katulad na nilalaman, mahusay ang mode na ito. Sa pamamagitan ng direktang paghahambing ng mga embedding ng input video sa mga nasa OpenSearch k-NN index, matutukoy ng system ang visually at audibly analogous na nilalaman. Napakahalaga nito para sa pagtukoy ng B-roll footage, pagtiyak ng pagkakapare-pareho ng nilalaman, o pagtuklas ng mga derivative na gawa.
Hybrid Search: Pinagsasama ang pinakamahusay sa parehong mundo, isinasama ng hybrid search ang vector similarity sa tradisyonal na pagtutugma ng keyword. Gumagamit ang iminungkahing solusyon ng isang weighted approach (hal., 70% vector similarity at 30% keyword matching). Tinitiyak nito ang mataas na katumpakan at kaugnayan, na nagpapahintulot sa partikular na metadata na gabayan ang paghahanap habang ang semantic na pag-unawa ay nagbibigay ng malawak na kontekstuwal na pagtutugma. Ang pamamaraang ito ay partikular na epektibo para sa mga kumplikadong query na nakikinabang mula sa parehong tumpak na tag at konseptuwal na pag-unawa.

Larawan 2: Arkitektura ng paghahanap ng video na nagpapakita ng tatlong mode ng paghahanap – text-to-video, video-to-video, at hybrid search na pinagsasama ang k-NN at BM25

Cost-Effective na Deployment at mga Kinakailangan

Ang pag-deploy ng naturang sopistikadong AI data lake ay nangangailangan ng maingat na pagsasaalang-alang sa imprastraktura at mga gastos, na na-optimize ng AWS para sa kahusayan. Ang kabuuang gastos para sa pagproseso ng malalawak na dataset, humigit-kumulang 8,480 oras ng nilalaman ng video, ay umabot sa tinatayang kabuuang $27,328 sa unang taon (na may OpenSearch on-demand) o $23,632 (na may OpenSearch Service Reserved Instances).

Ang pagkasira ng pagkuha ay nagbibigay-diin sa mga pangunahing nagtutulak ng gastos:

Amazon EC2 compute: $421 (4x c7i.48xlarge spot instances sa loob ng 41 oras)
Amazon Bedrock Nova Multimodal Embeddings: $17,096 (30.5M segundo sa $0.00056/segundo batch pricing)
Nova Pro tagging: $571 (792K video, humigit-kumulang 600 token/video average)
Amazon OpenSearch Service: $9,240 (on-demand taunang) o $5,544 (Reserved taunang)

Mga Kinakailangan para sa Pagpapatupad: Upang gayahin o iangkop ang solusyon na ito, kakailanganin mo:

Isang AWS account na may access sa Amazon Bedrock sa us-east-1.
Python 3.9 o mas bago.
AWS Command Line Interface (AWS CLI) na naka-configure gamit ang naaangkop na mga kredensyal.
Isang domain ng Amazon OpenSearch Service (r6g.large o mas malaki ang inirerekomenda), bersyon 2.11 o mas bago, na may k-NN plugin na pinagana.
Isang Amazon S3 bucket para sa imbakan ng video at mga output ng embedding.
Mga pahintulot ng AWS Identity and Access Management (IAM) para sa Amazon Bedrock, OpenSearch Service, at Amazon S3.

Ginagamit ng solusyon ang mga partikular na serbisyo at modelo ng AWS:

Amazon Bedrock na may amazon.nova-2-multimodal-embeddings-v1:0 para sa embeddings.
Amazon Bedrock na may us.amazon.nova-pro-v1:0 o us.amazon.nova-2-lite-v1:0 para sa pag-tag.
Amazon OpenSearch Service 2.11+ na may k-NN plugin.
Amazon S3 para sa imbakan.

Pagpapatupad ng Multimodal Video Search Solution

Ang pagsisimula sa arkitektura na ito ay nagsasangkot ng isang structured na diskarte sa pag-set up ng iyong AWS environment. Ang unang mahalagang hakbang ay ang pagtatatag ng kinakailangang mga pahintulot.

Hakbang 1: Gumawa ng mga IAM Role at Patakaran

Kakailanganin mong gumawa ng isang IAM role na nagbibigay sa iyong application o serbisyo ng awtoridad na makipag-ugnayan sa iba't ibang component ng AWS. Ang role na ito ay dapat magsama ng mga pahintulot upang tawagan ang mga modelo ng Amazon Bedrock (para sa parehong pagbuo ng embedding at pag-tag), magsulat ng data sa mga OpenSearch index, at magsagawa ng mga operasyon ng read/write sa mga Amazon S3 bucket kung saan nakalagay ang iyong nilalaman ng video at mga naprosesong output.

Narito ang isang halimbawa ng pangunahing istraktura ng patakaran ng IAM:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Ang patakarang ito ay nagbibigay ng mga partikular na pahintulot na mahalaga para sa operasyon ng pipeline. Tandaan na palitan ang mga placeholder tulad ng your-video-bucket at your-opensearch-domain ng iyong aktwal na pangalan ng resource. Kasunod ng pag-setup ng IAM, magpapatuloy ka sa pag-configure ng iyong mga S3 bucket, pag-set up ng iyong domain ng OpenSearch Service na may k-NN na pinagana, at pagbuo ng orchestration logic na gumagamit ng mga Bedrock API para sa pagkuha. Tinitiyak ng matatag na framework na ito na ang mga kumpanya ng media at libangan ay mahusay na makapamamahala, makatutuklas, at makapagkakakitaan ng kanilang patuloy na lumalaking library ng nilalaman, na nagmamarka ng isang makabuluhang pagtalon sa intelligence ng nilalaman. Ang komprehensibong solusyon na ito ay isang halimbawa kung paano binabago ng modernong kakayahan ng AI, partikular sa multimodal na pag-unawa, ang mga pamantayan ng industriya para sa pamamahala ng nilalaman at accessibility. Ito ay isang patunay sa kapangyarihan ng pagsasama ng mga advanced na modelo ng AI sa scalable na cloud infrastructure upang malutas ang mga hamon ng AI sa Negosyo sa totoong mundo, na nagtataguyod ng mga pag-unlad na katulad ng mga nakikita sa Agentic AI workflows.

Orihinal na pinagmulan

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Mga Karaniwang Tanong

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Manatiling Updated

Kunin ang pinakabagong AI news sa iyong inbox.

I-share