Razširljive multimodalne vgraditve: Jezero podatkov z umetno inteligenco za medije in zabavo

Revolucioniranje iskanja videoposnetkov z multimodalnimi vgraditvami

Industrija medijev in zabave je preplavljena z ogromnimi količinami video vsebin. Od arhivskega gradiva do dnevnih naložitev, sam obseg povzroča, da so tradicionalne metode odkrivanja vsebine – ročno označevanje in iskanje na podlagi ključnih besed – vse bolj neučinkovite in pogosto netočne. Ti zastareli pristopi se težko spopadajo z zajemanjem celotne bogatosti in niansiranega konteksta, vgrajenega v videoposnetke, kar vodi do izgubljenih priložnosti za ponovno uporabo vsebine, hitrejšo produkcijo in izboljšane izkušnje gledalcev.

Vstopamo v dobo multimodalnih vgraditev. AWS uvaja rešitev, ki presega te omejitve in omogoča zmogljivosti semantičnega iskanja po kolosalnih video naborih podatkov. Z izkoriščanjem moči modelov Amazon Nova in Amazon OpenSearch Service lahko ustvarjalci in distributerji vsebin presegajo površne ključne besede in resnično razumejo ter dostopajo do svojih medijskih knjižnic. Ta inovativni pristop omogoča poizvedbe v naravnem jeziku, da dosežejo globine vizualnih in slušnih informacij, kar prinaša izjemno natančnost pri odkrivanju vsebine.

Za dokazovanje te zmogljivosti v impresivnem obsegu je AWS obdelal 792.270 videoposnetkov iz registra odprtih podatkov AWS, kar zajema osupljivih 8.480 ur video vsebine. To ambiciozno delo, ki je trajalo le 41 ur za obdelavo več kot 30,5 milijona sekund videoposnetkov, poudarja razširljivost in učinkovitost tega pristopa, ki ga poganja umetna inteligenca. Stroški v prvem letu, vključno z enkratnim zajemom in letno storitvijo OpenSearch Service, so bili ocenjeni na zelo konkurenčnih 23.632 USD (z rezerviranimi instancami OpenSearch Service) do 27.328 USD (s cenami na zahtevo). Takšna rešitev bistveno spreminja način, kako medijska podjetja komunicirajo s svojimi digitalnimi sredstvi, kar odpira nove poti za monetizacijo vsebine in delovne procese produkcije. Ta sprememba paradigme k semantičnemu razumevanju je ključen razvoj za AI za podjetja v medijih.

Razumevanje arhitekture razširljivega jezera podatkov z umetno inteligenco z multimodalnimi vgraditvami

V svojem bistvu je ta zmogljiv sistem za iskanje videoposnetkov z multimodalnimi vgraditvami zgrajen na dveh medsebojno povezanih delovnih tokovih: zajemanju videoposnetkov in iskanju. Te komponente se brezhibno integrirajo in ustvarjajo jezero podatkov z umetno inteligenco, ki razume in omogoča iskanje po zapletenih podrobnostih video vsebin.

Cevovod za zajemanje videoposnetkov

Cevovod za zajemanje je zasnovan za vzporedno obdelavo in učinkovitost. Uporablja štiri instance Amazon EC2 c7i.48xlarge, ki orkestrirajo do 600 vzporednih delavcev za doseganje hitrosti obdelave 19.400 videoposnetkov na uro. Videoposnetki, ki so sprva naloženi v Amazon S3, se nato obdelajo z asinhronskim API-jem Amazon Nova Multimodal Embeddings. Ta API inteligentno segmentira videoposnetke v optimalne 15-sekundne dele – ravnotežje med zajemanjem pomembnih sprememb scene in upravljanjem količine generiranih vgraditev. Vsak segment se nato pretvori v 1024-dimenzionalno vgraditev, ki predstavlja njegove kombinirane avdio-vizualne značilnosti. Medtem ko 3072-dimenzionalne vgraditve ponujajo večjo zvestobo, 1024-dimenzionalna možnost zagotavlja 3-kratni prihranek stroškov shranjevanja z minimalnim vplivom na natančnost za to aplikacijo, zaradi česar je pragmatična izbira za razširljivost.

Za nadaljnje izboljšanje iskanja se uporablja Amazon Nova Pro (ali novejša, stroškovno učinkovitejša Nova 2 Lite) za generiranje 10-15 opisnih oznak na videoposnetek iz vnaprej določene taksonomije. Ta dvojni pristop zagotavlja, da je vsebina mogoče najti tako prek semantične podobnosti kot tudi tradicionalnega ujemanja ključnih besed. Te vgraditve so shranjene v indeksu OpenSearch k-NN, optimiziranem za iskanje podobnosti vektorjev, medtem ko so opisne oznake indeksirane v ločenem besedilnem indeksu. Ta ločitev omogoča prilagodljivo in učinkovito poizvedovanje. Cevovod upravlja omejitve sočasnosti Bedrocka (30 sočasnih opravil na račun) prek robustne čakalne vrste opravil in mehanizma anketiranja, kar zagotavlja neprekinjeno in skladno obdelavo.

Spodaj je vizualna predstavitev tega sofisticiranega procesa zajemanja:

Slika 1: Cevovod za zajemanje videoposnetkov, ki prikazuje pretok od shranjevanja videoposnetkov v S3 prek Nova Multimodal Embeddings in Nova Pro do dvojnih indeksov OpenSearch

Omogočanje raznolikih zmogljivosti iskanja videoposnetkov

Arhitektura iskanja je zasnovana za vsestranskost in ponuja več načinov odkrivanja vsebine:

Iskanje besedila v video (Text-to-video Search): Uporabniki lahko vnesejo poizvedbe v naravnem jeziku, kot so "posnetek z drona, ki prikazuje živahno mesto ponoči" ali "bližnji posnetek kuharja, ki pripravlja gurmanski obrok". Sistem te poizvedbe pretvori v vgraditve, nato pa uporabi indeks OpenSearch k-NN za iskanje video segmentov ali celotnih videoposnetkov, ki se semantično ujemajo z opisom, tudi če natančne besede niso prisotne v nobenih metapodatkih. To je idealno za intuitivno odkrivanje vsebine in izdelavo scenarijev.
Iskanje videa v video (Video-to-video Search): Za scenarije, kjer ima uporabnik video posnetek in želi najti podobno vsebino, je ta način odličen. Z neposredno primerjavo vgraditev vhodnega videoposnetka z vgraditvami v indeksu OpenSearch k-NN, sistem lahko identificira vizualno in zvočno analogno vsebino. To je neprecenljivo za identifikacijo B-roll posnetkov, zagotavljanje doslednosti vsebine ali odkrivanje izpeljanih del.
Hibridno iskanje (Hybrid Search): Z združevanjem najboljšega iz obeh svetov, hibridno iskanje združuje podobnost vektorjev s tradicionalnim ujemanje ključnih besed. Predlagana rešitev uporablja uteženi pristop (npr. 70 % podobnosti vektorjev in 30 % ujemanja ključnih besed). To zagotavlja visoko natančnost in relevantnost, saj omogoča, da specifični metapodatki vodijo iskanje, medtem ko semantično razumevanje zagotavlja široka kontekstualna ujemanja. Ta pristop je še posebej učinkovit pri kompleksnih poizvedbah, ki imajo koristi tako od natančnih oznak kot od konceptualnega razumevanja.

Slika 2: Arhitektura iskanja videoposnetkov, ki prikazuje tri načine iskanja – besedilo v video, video v video in hibridno iskanje, ki združuje k-NN in BM25

Stroškovno učinkovita namestitev in predpogoji

Namestitev tako sofisticiranega jezera podatkov z umetno inteligenco zahteva skrbno preučitev infrastrukture in stroškov, ki jih je AWS optimiziral za učinkovitost. Skupni stroški za obdelavo obsežnih naborov podatkov, približno 8.480 ur video vsebine, so v prvem letu znašali približno 27.328 USD (z OpenSearch na zahtevo) ali 23.632 USD (z rezerviranimi instancami OpenSearch Service).

Razčlenitev stroškov zajemanja poudarja ključne dejavnike stroškov:

Računska moč Amazon EC2: 421 USD (4x c7i.48xlarge spot instance za 41 ur)
Amazon Bedrock Nova Multimodal Embeddings: 17.096 USD (30,5M sekund po 0,00056 USD/sekundo za paketno ceno)
Označevanje z Nova Pro: 571 USD (792K videoposnetkov, povprečno približno 600 žetonov/videoposnetek)
Amazon OpenSearch Service: 9.240 USD (letno na zahtevo) ali 5.544 USD (letno rezervirano)

Predpogoji za implementacijo: Za repliciranje ali prilagoditev te rešitve boste potrebovali:

Račun AWS z dostopom do Amazon Bedrock v us-east-1.
Python 3.9 ali novejši.
AWS Command Line Interface (AWS CLI), konfiguriran z ustreznimi poverilnicami.
Domena Amazon OpenSearch Service (priporočena r6g.large ali večja), različica 2.11 ali novejša, z omogočenim vtičnikom k-NN.
Vedro Amazon S3 za shranjevanje videoposnetkov in izhodov vgraditve.
Dovoljenja AWS Identity and Access Management (IAM) za Amazon Bedrock, OpenSearch Service in Amazon S3.

Rešitev uporablja specifične storitve in modele AWS:

Amazon Bedrock z amazon.nova-2-multimodal-embeddings-v1:0 za vgraditve.
Amazon Bedrock z us.amazon.nova-pro-v1:0 ali us.amazon.nova-2-lite-v1:0 za označevanje.
Amazon OpenSearch Service 2.11+ z vtičnikom k-NN.
Amazon S3 za shranjevanje.

Implementacija rešitve za multimodalno iskanje videoposnetkov

Začetek dela s to arhitekturo vključuje strukturiran pristop k nastavitvi vašega okolja AWS. Prvi ključni korak je vzpostavitev potrebnih dovoljenj.

1. korak: Ustvarite vloge in pravilnike IAM

Potrebno je ustvariti vlogo IAM, ki vašemu programu ali storitvi podeli pooblastilo za interakcijo z različnimi komponentami AWS. Ta vloga mora vključevati dovoljenja za priklic modelov Amazon Bedrock (za generiranje vgraditev in označevanje), zapisovanje podatkov v indekse OpenSearch in izvajanje operacij branja/pisanja na vedrih Amazon S3, kjer se nahajajo vaša video vsebina in obdelani izhodi.

Tukaj je primer temeljne strukture pravilnika IAM:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Ta pravilnik dodeli specifična dovoljenja, ki so bistvena za delovanje cevovoda. Ne pozabite zamenjati nadomestnih znakov, kot sta your-video-bucket in your-opensearch-domain, z vašimi dejanskimi imeni virov. Po nastavitvi IAM bi nadaljevali s konfiguracijo vedra S3, nastavitvijo vaše domene OpenSearch Service z omogočenim k-NN in razvojem orkestracijske logike, ki uporablja API-je Bedrock za zajemanje. Ta robustni okvir zagotavlja, da lahko medijska in zabavna podjetja učinkovito upravljajo, odkrivajo in monetizirajo svoje nenehno rastoče knjižnice vsebin, kar pomeni pomemben preskok v inteligenci vsebine. Ta celovita rešitev je primer, kako sodobne zmogljivosti umetne inteligence, zlasti pri multimodalnem razumevanju, redefinirajo industrijske standarde za upravljanje in dostopnost vsebine. To je dokaz moči integracije naprednih modelov AI s skalabilno infrastrukturo v oblaku za reševanje resničnih izzivov AI za podjetja, spodbujanje napredka, podobnega tistemu, ki ga vidimo pri agentnih delovnih tokovih GitHub.

Izvirni vir

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Pogosta vprašanja

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Bodite na tekočem

Prejemajte najnovejše AI novice po e-pošti.

Deli