Að umbylta myndbandaleit með fjölstilltum innfellingum
Miðla- og afþreyingariðnaðurinn flýtur í miklu magni myndbandsefnis. Frá skjalasafni til daglegra upphleðslna, gerir hið mikla magn hefðbundnar aðferðir við efnisleit – handvirka merkingu og leitarorðatengdar leitir – sífellt óskilvirkari og oft ónákvæmari. Þessar eldri aðferðir eiga í erfiðleikum með að fanga alla ríkdóminn og nákvæmt samhengi sem er innbyggt í myndbönd, sem leiðir til glataðra tækifæra til endurnýtingar efnis, hraðari framleiðslu og betri upplifunar fyrir áhorfendur.
Stígum inn í tíma fjölstilltra innfellinga. AWS er að ryðja brautina með lausn sem fer yfir þessar takmarkanir og gerir kleift að framkvæma merkingarfræðilega leit yfir gríðarstór gagnasöfn af myndböndum. Með því að nýta kraft Amazon Nova líkana og Amazon OpenSearch Service, geta efnisgerðarmenn og dreifingaraðilar farið út fyrir yfirborðskennd leitarorð til að skilja og fá aðgang að miðlasafni sínu. Þessi nýstárlega nálgun gerir náttúrulegum tungumálaleitum kleift að kafa djúpt í sjónrænar og hljóðrænar upplýsingar, sem færir óviðjafnanlega nákvæmni í efnisleit.
Til að sýna þessa getu í stórum stíl hefur AWS unnið úr 792.270 myndböndum úr AWS Open Data Registry, sem spannar ótrúlega 8.480 klukkustundir af myndbandsefni. Þetta metnaðarfulla verkefni, sem tók aðeins 41 klukkustund að vinna úr yfir 30,5 milljónum sekúndna af myndbandi, undirstrikar stigstærð og skilvirkni þessarar gervigreindardrifnu nálgunar. Áætlaður kostnaður fyrsta árs, þar á meðal eingöngu inntaka og árlegur OpenSearch Service, var mjög samkeppnishæfur, $23.632 (með OpenSearch Service Reserved Instances) til $27.328 (með on-demand). Slík lausn umbreytir í grundvallaratriðum því hvernig fjölmiðlafyrirtæki hafa samskipti við stafrænar eignir sínar, opnar nýjar leiðir fyrir tekjuöflun efnis og framleiðsluferla. Þessi nýja nálgun í átt að merkingarfræðilegum skilningi er mikilvæg þróun fyrir Fyrirtækjagervigreind í miðlum.
Að skilja stigstæða fjölstillta AI gagnasjávararkitektúrinn
Í kjarna sínum er þetta öfluga fjölstillta myndbandaleitarkerfi byggt á tveimur samtvinnuðum vinnuflæðum: myndbandainntöku og leit. Þessir hlutar samþættast óaðfinnanlega til að skapa AI gagnasjávar sem skilur og gerir leit að flóknum smáatriðum myndbandsefnisins mögulega.
Myndbandainntökuferli
Inntökuferlið er hannað fyrir samhliða vinnslu og skilvirkni. Það notar fjögur Amazon EC2 c7i.48xlarge tilvik, sem stýra allt að 600 samhliða vinnslueiningum til að ná vinnsluhraða upp á 19.400 myndbönd á klukkustund. Myndbönd sem upphaflega eru hlaðið upp á Amazon S3 eru síðan unnin af Amazon Nova Multimodal Embeddings ósamstillta API. Þetta API skiptir myndböndum á snjallan hátt í bestu 15 sekúndna bita – jafnvægi á milli þess að fanga mikilvægar atriðisbreytingar og stjórna magni framleiddra innfellinga. Hver hluti er síðan umbreytt í 1024 víddar innfellingu, sem táknar samsett hljóð- og myndræna eiginleika hans. Þó að 3072 víddar innfellingar bjóði upp á meiri nákvæmni, veitir 1024 víddar valkosturinn 3x sparnað í geymslukostnaði með lágmarksáhrifum á nákvæmni fyrir þetta forrit, sem gerir það að praktísku vali fyrir stærð.
Til að auka enn frekar leitargetu er Amazon Nova Pro (eða nýrri, hagkvæmari Nova 2 Lite) notað til að búa til 10-15 lýsandi merkimiða á hvert myndband úr fyrirfram skilgreindri flokkunarkerfi. Þessi tvöfalda nálgun tryggir að efni sé finnanlegt bæði með merkingarfræðilegum líkindum og hefðbundinni leitarorðsamsvörun. Þessar innfellingar eru geymdar í OpenSearch k-NN vísitölu, sem er fínstillt fyrir vektarleit, á meðan lýsandi merkimiðar eru skráðir í sérstaka textavísitölu. Þessi aðskilnaður gerir kleift að framkvæma sveigjanlegar og skilvirkar fyrirspurnir. Ferlið stýrir samtíma takmörkunum Bedrock (30 samtíma verkefni á reikning) með öflugri starfbiðröð og könnunaraðferð, sem tryggir stöðuga og samhæfða vinnslu.
Hér fyrir neðan er sjónræn framsetning á þessu háþróaða inntökuferli:

Mynd 1: Myndbandainntökuferli sem sýnir flæði frá S3 myndbandageymslu í gegnum Nova Multimodal Embeddings og Nova Pro til tvöfaldra OpenSearch vísitalna
Að styrkja fjölbreytta myndbandaleitarhæfileika
Leitararkitektúrinn er hannaður fyrir fjölhæfni og býður upp á margar leiðir til að finna efni:
-
Texta í myndbandaleit: Notendur geta slegið inn náttúrulegar tungumálaleitir, svo sem 'drónamynd af iðandi borg um nótt' eða 'nálmynd af matreiðslumanni að útbúa fínan rétt.' Kerfið breytir þessum fyrirspurnum í innfellingar og nýtir síðan OpenSearch k-NN vísitölu til að finna myndbandshluta eða heil myndbönd sem passa merkingarfræðilega við lýsinguna, jafnvel þó að nákvæm orð séu ekki til staðar í neinum lýsigögnum. Þetta er tilvalið fyrir leiðandi efnisleit og söguþráðargerð.
-
Myndband í myndbandaleit: Fyrir aðstæður þar sem notandi hefur myndbrot og vill finna svipað efni, skarar þessi hamur fram úr. Með því að bera saman innfellingar inntaksmyndbandsins beint við þær í OpenSearch k-NN vísitölunni, getur kerfið borið kennsl á sjónrænt og hljóðrænt líkt efni. Þetta er ómetanlegt til að bera kennsl á aukaupptökur, tryggja samræmi efnis eða uppgötva afleidd verk.
-
Blönduð leit: Blönduð leit sameinar það besta úr báðum heimum og samþættir vektorlíkindi við hefðbundna leitarorðsamsvörun. Ráðlögð lausn notar vegnaðferð (t.d. 70% vektorlíkindi og 30% leitarorðsamsvörun). Þetta tryggir mikla nákvæmni og mikilvægi, sem gerir sérstökum lýsigögnum kleift að leiðbeina leit á meðan merkingarfræðilegur skilningur veitir víðtækar samhengissamsvörun. Þessi nálgun er sérstaklega árangursrík fyrir flóknar fyrirspurnir sem njóta góðs af bæði nákvæmum merkimiðum og huglægum skilningi.

Mynd 2: Myndbandaleitararkitektúr sem sýnir þrjá leitarhama – texta í myndband, myndband í myndband og blandaða leit sem sameinar k-NN og BM25
Hagkvæm uppsetning og forkröfur
Útfærsla slíks háþróaðs AI gagnasjávar krefst vandlegrar íhugunar á innviðum og kostnaði, sem AWS hefur fínstillt fyrir skilvirkni. Heildarkostnaður við vinnslu umfangsmikilla gagnasafna, um 8.480 klukkustunda myndbandsefnis, nam áætlaðri heildarkostnaði fyrsta árs upp á $27.328 (með OpenSearch on-demand) eða $23.632 (með OpenSearch Service Reserved Instances).
Inntökusundurliðun sýnir helstu kostnaðarþætti:
- Amazon EC2 útreikningsgeta: $421 (4x c7i.48xlarge spot tilvik í 41 klukkustund)
- Amazon Bedrock Nova Multimodal Embeddings: $17.096 (30,5M sekúndur á $0.00056/sekúndu hópverðlagningu)
- Nova Pro merking: $571 (792K myndbönd, að meðaltali 600 tokens/myndband)
- Amazon OpenSearch Service: $9.240 (on-demand árlegur) eða $5.544 (Reserved árlegur)
Forþarfir fyrir framkvæmd: Til að endurtaka eða aðlaga þessa lausn þarftu:
- AWS reikning með aðgang að Amazon Bedrock í
us-east-1. - Python 3.9 eða nýrri.
- AWS Command Line Interface (AWS CLI) stillt með viðeigandi skilríkjum.
- Amazon OpenSearch Service lén (r6g.large eða stærra mælt með), útgáfa 2.11 eða nýrri, með k-NN viðbótina virka.
- Amazon S3 geymsla fyrir myndbandageymslu og úttak innfellinga.
- AWS Identity and Access Management (IAM) heimildir fyrir Amazon Bedrock, OpenSearch Service og Amazon S3.
Lausnin nýtir sérstakar AWS þjónustur og líkön:
- Amazon Bedrock með
amazon.nova-2-multimodal-embeddings-v1:0fyrir innfellingar. - Amazon Bedrock með
us.amazon.nova-pro-v1:0eðaus.amazon.nova-2-lite-v1:0fyrir merkingu. - Amazon OpenSearch Service 2.11+ með k-NN viðbót.
- Amazon S3 fyrir geymslu.
Innleiðing fjölstilltu myndbandaleitarlausnarinnar
Að byrja með þennan arkitektúr felur í sér skipulega nálgun við uppsetningu AWS umhverfisins. Fyrsta mikilvæga skrefið er að koma á nauðsynlegum heimildum.
Skref 1: Búa til IAM hlutverk og stefnur
Þú þarft að búa til IAM hlutverk sem veitir forritinu þínu eða þjónustu heimild til að eiga samskipti við ýmsa AWS hluta. Þetta hlutverk verður að innihalda heimildir til að kalla á Amazon Bedrock líkön (bæði fyrir innfellingargerð og merkingu), skrifa gögn í OpenSearch vísitölur og framkvæma les-/skrifaðgerðir á Amazon S3 geymslum þar sem myndbandsefnið þitt og unnar niðurstöður eru staðsettar.
Hér er dæmi um grunn IAM stefnu uppbyggingu:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Þessi stefna veitir sérstakar heimildir sem eru nauðsynlegar fyrir rekstur ferlisins. Mundu að skipta út staðgengla eins og your-video-bucket og your-opensearch-domain með raunverulegum auðlindanöfnum þínum. Eftir IAM uppsetningu myndirðu halda áfram með stillingu S3 geymslanna þinna, setja upp OpenSearch Service lénið þitt með k-NN virkt og þróa stjórnunarrökfræði sem nýtir Bedrock API til inntöku. Þessi öfluga umgjörð tryggir að fjölmiðla- og afþreyingarfyrirtæki geti á skilvirkan hátt stjórnað, fundið og grætt á sívaxandi efnisbókasöfnum sínum, sem markar stórt stökk í efnisgreind. Þessi alhliða lausn er dæmi um hvernig nútíma gervigreindargeta, sérstaklega í fjölstilltum skilningi, er að endurskilgreina iðnaðarstaðla fyrir efnisstjórnun og aðgengi. Það er vitnisburður um kraft þess að samþætta háþróuð gervigreindarlíkön við stigstæða skýja innviði til að leysa raunveruleg Fyrirtækjagervigreind vandamál, sem stuðlar að framförum svipuðum þeim sem sjást í Agentic AI workflows.
Upprunaleg heimild
https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/Algengar spurningar
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Fylgstu með
Fáðu nýjustu gervigreindarfréttirnar í pósthólfið.
