Revolucioniranje iskanja videoposnetkov z multimodalnimi vgraditvami
Industrija medijev in zabave je preplavljena z ogromnimi količinami video vsebin. Od arhivskega gradiva do dnevnih naložitev, sam obseg povzroča, da so tradicionalne metode odkrivanja vsebine – ročno označevanje in iskanje na podlagi ključnih besed – vse bolj neučinkovite in pogosto netočne. Ti zastareli pristopi se težko spopadajo z zajemanjem celotne bogatosti in niansiranega konteksta, vgrajenega v videoposnetke, kar vodi do izgubljenih priložnosti za ponovno uporabo vsebine, hitrejšo produkcijo in izboljšane izkušnje gledalcev.
Vstopamo v dobo multimodalnih vgraditev. AWS uvaja rešitev, ki presega te omejitve in omogoča zmogljivosti semantičnega iskanja po kolosalnih video naborih podatkov. Z izkoriščanjem moči modelov Amazon Nova in Amazon OpenSearch Service lahko ustvarjalci in distributerji vsebin presegajo površne ključne besede in resnično razumejo ter dostopajo do svojih medijskih knjižnic. Ta inovativni pristop omogoča poizvedbe v naravnem jeziku, da dosežejo globine vizualnih in slušnih informacij, kar prinaša izjemno natančnost pri odkrivanju vsebine.
Za dokazovanje te zmogljivosti v impresivnem obsegu je AWS obdelal 792.270 videoposnetkov iz registra odprtih podatkov AWS, kar zajema osupljivih 8.480 ur video vsebine. To ambiciozno delo, ki je trajalo le 41 ur za obdelavo več kot 30,5 milijona sekund videoposnetkov, poudarja razširljivost in učinkovitost tega pristopa, ki ga poganja umetna inteligenca. Stroški v prvem letu, vključno z enkratnim zajemom in letno storitvijo OpenSearch Service, so bili ocenjeni na zelo konkurenčnih 23.632 USD (z rezerviranimi instancami OpenSearch Service) do 27.328 USD (s cenami na zahtevo). Takšna rešitev bistveno spreminja način, kako medijska podjetja komunicirajo s svojimi digitalnimi sredstvi, kar odpira nove poti za monetizacijo vsebine in delovne procese produkcije. Ta sprememba paradigme k semantičnemu razumevanju je ključen razvoj za AI za podjetja v medijih.
Razumevanje arhitekture razširljivega jezera podatkov z umetno inteligenco z multimodalnimi vgraditvami
V svojem bistvu je ta zmogljiv sistem za iskanje videoposnetkov z multimodalnimi vgraditvami zgrajen na dveh medsebojno povezanih delovnih tokovih: zajemanju videoposnetkov in iskanju. Te komponente se brezhibno integrirajo in ustvarjajo jezero podatkov z umetno inteligenco, ki razume in omogoča iskanje po zapletenih podrobnostih video vsebin.
Cevovod za zajemanje videoposnetkov
Cevovod za zajemanje je zasnovan za vzporedno obdelavo in učinkovitost. Uporablja štiri instance Amazon EC2 c7i.48xlarge, ki orkestrirajo do 600 vzporednih delavcev za doseganje hitrosti obdelave 19.400 videoposnetkov na uro. Videoposnetki, ki so sprva naloženi v Amazon S3, se nato obdelajo z asinhronskim API-jem Amazon Nova Multimodal Embeddings. Ta API inteligentno segmentira videoposnetke v optimalne 15-sekundne dele – ravnotežje med zajemanjem pomembnih sprememb scene in upravljanjem količine generiranih vgraditev. Vsak segment se nato pretvori v 1024-dimenzionalno vgraditev, ki predstavlja njegove kombinirane avdio-vizualne značilnosti. Medtem ko 3072-dimenzionalne vgraditve ponujajo večjo zvestobo, 1024-dimenzionalna možnost zagotavlja 3-kratni prihranek stroškov shranjevanja z minimalnim vplivom na natančnost za to aplikacijo, zaradi česar je pragmatična izbira za razširljivost.
Za nadaljnje izboljšanje iskanja se uporablja Amazon Nova Pro (ali novejša, stroškovno učinkovitejša Nova 2 Lite) za generiranje 10-15 opisnih oznak na videoposnetek iz vnaprej določene taksonomije. Ta dvojni pristop zagotavlja, da je vsebina mogoče najti tako prek semantične podobnosti kot tudi tradicionalnega ujemanja ključnih besed. Te vgraditve so shranjene v indeksu OpenSearch k-NN, optimiziranem za iskanje podobnosti vektorjev, medtem ko so opisne oznake indeksirane v ločenem besedilnem indeksu. Ta ločitev omogoča prilagodljivo in učinkovito poizvedovanje. Cevovod upravlja omejitve sočasnosti Bedrocka (30 sočasnih opravil na račun) prek robustne čakalne vrste opravil in mehanizma anketiranja, kar zagotavlja neprekinjeno in skladno obdelavo.
Spodaj je vizualna predstavitev tega sofisticiranega procesa zajemanja:

Slika 1: Cevovod za zajemanje videoposnetkov, ki prikazuje pretok od shranjevanja videoposnetkov v S3 prek Nova Multimodal Embeddings in Nova Pro do dvojnih indeksov OpenSearch
Omogočanje raznolikih zmogljivosti iskanja videoposnetkov
Arhitektura iskanja je zasnovana za vsestranskost in ponuja več načinov odkrivanja vsebine:
-
Iskanje besedila v video (Text-to-video Search): Uporabniki lahko vnesejo poizvedbe v naravnem jeziku, kot so "posnetek z drona, ki prikazuje živahno mesto ponoči" ali "bližnji posnetek kuharja, ki pripravlja gurmanski obrok". Sistem te poizvedbe pretvori v vgraditve, nato pa uporabi indeks OpenSearch k-NN za iskanje video segmentov ali celotnih videoposnetkov, ki se semantično ujemajo z opisom, tudi če natančne besede niso prisotne v nobenih metapodatkih. To je idealno za intuitivno odkrivanje vsebine in izdelavo scenarijev.
-
Iskanje videa v video (Video-to-video Search): Za scenarije, kjer ima uporabnik video posnetek in želi najti podobno vsebino, je ta način odličen. Z neposredno primerjavo vgraditev vhodnega videoposnetka z vgraditvami v indeksu OpenSearch k-NN, sistem lahko identificira vizualno in zvočno analogno vsebino. To je neprecenljivo za identifikacijo B-roll posnetkov, zagotavljanje doslednosti vsebine ali odkrivanje izpeljanih del.
-
Hibridno iskanje (Hybrid Search): Z združevanjem najboljšega iz obeh svetov, hibridno iskanje združuje podobnost vektorjev s tradicionalnim ujemanje ključnih besed. Predlagana rešitev uporablja uteženi pristop (npr. 70 % podobnosti vektorjev in 30 % ujemanja ključnih besed). To zagotavlja visoko natančnost in relevantnost, saj omogoča, da specifični metapodatki vodijo iskanje, medtem ko semantično razumevanje zagotavlja široka kontekstualna ujemanja. Ta pristop je še posebej učinkovit pri kompleksnih poizvedbah, ki imajo koristi tako od natančnih oznak kot od konceptualnega razumevanja.

Slika 2: Arhitektura iskanja videoposnetkov, ki prikazuje tri načine iskanja – besedilo v video, video v video in hibridno iskanje, ki združuje k-NN in BM25
Stroškovno učinkovita namestitev in predpogoji
Namestitev tako sofisticiranega jezera podatkov z umetno inteligenco zahteva skrbno preučitev infrastrukture in stroškov, ki jih je AWS optimiziral za učinkovitost. Skupni stroški za obdelavo obsežnih naborov podatkov, približno 8.480 ur video vsebine, so v prvem letu znašali približno 27.328 USD (z OpenSearch na zahtevo) ali 23.632 USD (z rezerviranimi instancami OpenSearch Service).
Razčlenitev stroškov zajemanja poudarja ključne dejavnike stroškov:
- Računska moč Amazon EC2: 421 USD (4x c7i.48xlarge spot instance za 41 ur)
- Amazon Bedrock Nova Multimodal Embeddings: 17.096 USD (30,5M sekund po 0,00056 USD/sekundo za paketno ceno)
- Označevanje z Nova Pro: 571 USD (792K videoposnetkov, povprečno približno 600 žetonov/videoposnetek)
- Amazon OpenSearch Service: 9.240 USD (letno na zahtevo) ali 5.544 USD (letno rezervirano)
Predpogoji za implementacijo: Za repliciranje ali prilagoditev te rešitve boste potrebovali:
- Račun AWS z dostopom do Amazon Bedrock v
us-east-1. - Python 3.9 ali novejši.
- AWS Command Line Interface (AWS CLI), konfiguriran z ustreznimi poverilnicami.
- Domena Amazon OpenSearch Service (priporočena r6g.large ali večja), različica 2.11 ali novejša, z omogočenim vtičnikom k-NN.
- Vedro Amazon S3 za shranjevanje videoposnetkov in izhodov vgraditve.
- Dovoljenja AWS Identity and Access Management (IAM) za Amazon Bedrock, OpenSearch Service in Amazon S3.
Rešitev uporablja specifične storitve in modele AWS:
- Amazon Bedrock z
amazon.nova-2-multimodal-embeddings-v1:0za vgraditve. - Amazon Bedrock z
us.amazon.nova-pro-v1:0alius.amazon.nova-2-lite-v1:0za označevanje. - Amazon OpenSearch Service 2.11+ z vtičnikom k-NN.
- Amazon S3 za shranjevanje.
Implementacija rešitve za multimodalno iskanje videoposnetkov
Začetek dela s to arhitekturo vključuje strukturiran pristop k nastavitvi vašega okolja AWS. Prvi ključni korak je vzpostavitev potrebnih dovoljenj.
1. korak: Ustvarite vloge in pravilnike IAM
Potrebno je ustvariti vlogo IAM, ki vašemu programu ali storitvi podeli pooblastilo za interakcijo z različnimi komponentami AWS. Ta vloga mora vključevati dovoljenja za priklic modelov Amazon Bedrock (za generiranje vgraditev in označevanje), zapisovanje podatkov v indekse OpenSearch in izvajanje operacij branja/pisanja na vedrih Amazon S3, kjer se nahajajo vaša video vsebina in obdelani izhodi.
Tukaj je primer temeljne strukture pravilnika IAM:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Ta pravilnik dodeli specifična dovoljenja, ki so bistvena za delovanje cevovoda. Ne pozabite zamenjati nadomestnih znakov, kot sta your-video-bucket in your-opensearch-domain, z vašimi dejanskimi imeni virov. Po nastavitvi IAM bi nadaljevali s konfiguracijo vedra S3, nastavitvijo vaše domene OpenSearch Service z omogočenim k-NN in razvojem orkestracijske logike, ki uporablja API-je Bedrock za zajemanje. Ta robustni okvir zagotavlja, da lahko medijska in zabavna podjetja učinkovito upravljajo, odkrivajo in monetizirajo svoje nenehno rastoče knjižnice vsebin, kar pomeni pomemben preskok v inteligenci vsebine. Ta celovita rešitev je primer, kako sodobne zmogljivosti umetne inteligence, zlasti pri multimodalnem razumevanju, redefinirajo industrijske standarde za upravljanje in dostopnost vsebine. To je dokaz moči integracije naprednih modelov AI s skalabilno infrastrukturo v oblaku za reševanje resničnih izzivov AI za podjetja, spodbujanje napredka, podobnega tistemu, ki ga vidimo pri agentnih delovnih tokovih GitHub.
Pogosta vprašanja
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Bodite na tekočem
Prejemajte najnovejše AI novice po e-pošti.
