Video meklēšanas revolūcija ar multimodāliem ieguldījumiem
Plašsaziņas līdzekļu un izklaides industrija ir pārpilna ar milzīgiem video satura apjomiem. No arhīva materiāliem līdz ikdienas augšupielādēm, milzīgais apjoms padara tradicionālās satura atklāšanas metodes — manuālu atzīmēšanu un atslēgvārdu meklēšanu — arvien neefektīvākas un bieži vien neprecīzas. Šīs mantotās pieejas nespēj aptvert visu video satura bagātību un niansēto kontekstu, kas noved pie zaudētām iespējām satura atkārtotai izmantošanai, ātrākai ražošanai un uzlabotām skatītāju pieredzēm.
Ienāk multimodālo ieguldījumu ēra. AWS ir celmlauzis risinājumam, kas pārvar šos ierobežojumus, nodrošinot semantiskās meklēšanas iespējas milzīgās video datu kopās. Izmantojot Amazon Nova modeļu un Amazon OpenSearch Service jaudu, satura veidotāji un izplatītāji var pārsniegt virspusējus atslēgvārdus, lai patiesi saprastu un piekļūtu savām mediju bibliotēkām. Šī inovatīvā pieeja ļauj dabiskās valodas vaicājumiem iedziļināties vizuālās un audio informācijas dziļumos, nodrošinot bezprecedenta precizitāti satura atklāšanā.
Demonstrējot šo iespēju iespaidīgā mērogā, AWS apstrādāja 792 270 videoklipus no AWS Open Data Registry, kas ietver pārsteidzošas 8480 stundas video satura. Šis vērienīgais pasākums, kas ilga tikai 41 stundu, lai apstrādātu vairāk nekā 30,5 miljonus video sekunžu, uzsver šīs AI virzītās pieejas mērogojamību un efektivitāti. Pirmā gada izmaksas, ieskaitot vienreizēju ievadīšanu un gada OpenSearch Service, tika lēstas ļoti konkurētspējīgā $23 632 (ar OpenSearch Service Reserved Instances) līdz $27 328 (ar on-demand). Šāds risinājums fundamentāli pārveido, kā mediju uzņēmumi mijiedarbojas ar saviem digitālajiem aktīviem, atverot jaunas iespējas satura monetizācijai un ražošanas plūsmām. Šī paradigmas maiņa uz semantisko izpratni ir kritiska attīstība Uzņēmuma AI medijos.
Izpratne par mērogojamo multimodālā AI datu ezera arhitektūru
Šīs jaudīgās multimodālās video meklēšanas sistēmas pamatā ir divas savstarpēji saistītas darba plūsmas: video ievadīšana un meklēšana. Šie komponenti nemanāmi integrējas, lai izveidotu AI datu ezeru, kas saprot un padara meklējamu video satura sarežģītās detaļas.
Video ievadīšanas konveijers
Ievadīšanas konveijers ir izstrādāts paralēlai apstrādei un efektivitātei. Tas izmanto četras Amazon EC2 c7i.48xlarge instances, orķestrējot līdz pat 600 paralēliem darbiniekiem, lai sasniegtu apstrādes ātrumu 19 400 videoklipu stundā. Sākotnēji Amazon S3 augšupielādētie videoklipi pēc tam tiek apstrādāti ar Amazon Nova Multimodal Embeddings asinhrono API. Šis API inteliģenti segmentē videoklipus optimālās 15 sekunžu daļās — tas ir līdzsvars starp nozīmīgu ainas izmaiņu uztveršanu un ģenerēto ieguldījumu apjoma pārvaldību. Katrs segments pēc tam tiek pārveidots par 1024 dimensiju ieguldījumu, kas atspoguļo tā kombinētās audio-vizuālās funkcijas. Kamēr 3072 dimensiju ieguldījumi piedāvā augstāku precizitāti, 1024 dimensiju opcija nodrošina 3x glabāšanas izmaksu ietaupījumu ar minimālu ietekmi uz precizitāti šai lietojumprogrammai, padarot to par pragmatisku izvēli mērogam.
Lai vēl vairāk uzlabotu meklēšanas iespējas, Amazon Nova Pro (vai jaunākais, ekonomiski efektīvākais Nova 2 Lite) tiek izmantots, lai ģenerētu 10-15 aprakstošas atzīmes katram video no iepriekš definētas taksonomijas. Šī divējādā pieeja nodrošina, ka saturu var atrast gan ar semantisko līdzību, gan ar tradicionālo atslēgvārdu atbilstību. Šie ieguldījumi tiek glabāti OpenSearch k-NN indeksā, kas optimizēts vektoru līdzības meklēšanai, savukārt aprakstošās atzīmes tiek indeksētas atsevišķā teksta indeksā. Šī atdalīšana nodrošina elastīgu un efektīvu vaicāšanu. Konveijers pārvalda Bedrock vienlaicīguma ierobežojumus (30 vienlaicīgu darbu uz kontu), izmantojot stabilu darba rindu un aptaujas mehānismu, nodrošinot nepārtrauktu un atbilstošu apstrādi.
Zemāk ir šī sarežģītā ievadīšanas procesa vizuāls attēlojums:

Figure 1: Video ievadīšanas konveijers, kas parāda plūsmu no S3 video krātuves caur Nova Multimodal Embeddings un Nova Pro uz diviem OpenSearch indeksiem
Dažādu video meklēšanas iespēju stiprināšana
Meklēšanas arhitektūra ir izstrādāta daudzpusībai, piedāvājot vairākus satura atklāšanas režīmus:
-
Teksta-video meklēšana: Lietotāji var ievadīt dabiskās valodas vaicājumus, piemēram, "drona uzņēmums ar rosīgu pilsētu naktī" vai "pavāra tuvplāns, kas gatavo gardēžu maltīti". Sistēma pārveido šos vaicājumus ieguldījumos, pēc tam izmanto OpenSearch k-NN indeksu, lai atrastu video segmentus vai veselus videoklipus, kas semantiski atbilst aprakstam, pat ja precīzi vārdi nav klāt nevienā metadatos. Tas ir ideāli piemērots intuitīvai satura atklāšanai un sižeta veidošanai.
-
Video-video meklēšana: Scenārijiem, kur lietotājam ir video klips un viņš vēlas atrast līdzīgu saturu, šis režīms ir izcils. Tieši salīdzinot ievades video ieguldījumus ar tiem, kas atrodas OpenSearch k-NN indeksā, sistēma var identificēt vizuāli un audio analogu saturu. Tas ir nenovērtējams B-roll materiālu identificēšanai, satura konsekvences nodrošināšanai vai atvasinātu darbu atklāšanai.
-
Hibrīda meklēšana: Apvienojot labāko no abām pasaulēm, hibrīda meklēšana integrē vektoru līdzību ar tradicionālo atslēgvārdu atbilstību. Piedāvātais risinājums izmanto svērto pieeju (piemēram, 70% vektoru līdzība un 30% atslēgvārdu atbilstība). Tas nodrošina augstu precizitāti un atbilstību, ļaujot specifiskiem metadatiem vadīt meklēšanu, kamēr semantiskā izpratne nodrošina plašas kontekstuālas atbilstības. Šī pieeja ir īpaši efektīva sarežģītiem vaicājumiem, kas gūst labumu gan no precīzām atzīmēm, gan no konceptuālās izpratnes.

Figure 2: Video meklēšanas arhitektūra, kas demonstrē trīs meklēšanas režīmus – teksta-video, video-video un hibrīda meklēšanu, apvienojot k-NN un BM25
Rentabla ieviešana un priekšnoteikumi
Tik sarežģīta AI datu ezera ieviešana prasa rūpīgu infrastruktūras un izmaksu apsvēršanu, ko AWS ir optimizējusi efektivitātei. Kopējās izmaksas par plašo datu kopu, aptuveni 8480 stundu video satura, apstrādi, pirmajā gadā tika lēstas aptuveni $27 328 (ar OpenSearch on-demand) vai $23 632 (ar OpenSearch Service Reserved Instances).
Ievadīšanas sadalījums uzsver galvenos izmaksu virzītājus:
- Amazon EC2 skaitļošana: $421 (4x c7i.48xlarge spot instances 41 stundai)
- Amazon Bedrock Nova Multimodal Embeddings: $17 096 (30,5M sekundes par $0,00056/sekundi partijas cenā)
- Nova Pro atzīmēšana: $571 (792K videoklipi, aptuveni 600 žetoni/video vidēji)
- Amazon OpenSearch Service: $9240 (on-demand gadā) vai $5544 (Reserved gadā)
Priekšnoteikumi ieviešanai: Lai atkārtotu vai pielāgotu šo risinājumu, jums būs nepieciešams:
- AWS konts ar piekļuvi Amazon Bedrock reģionā
us-east-1. - Python 3.9 vai jaunāka versija.
- AWS komandrindas interfeiss (AWS CLI), konfigurēts ar atbilstošiem akreditācijas datiem.
- Amazon OpenSearch Service domēns (ieteicams r6g.large vai lielāks), versija 2.11 vai jaunāka, ar iespējotu k-NN spraudni.
- Amazon S3 saglabātuve (bucket) video glabāšanai un ieguldījumu izvadei.
- AWS Identity and Access Management (IAM) atļaujas Amazon Bedrock, OpenSearch Service un Amazon S3.
Risinājums izmanto specifiskus AWS pakalpojumus un modeļus:
- Amazon Bedrock ar
amazon.nova-2-multimodal-embeddings-v1:0ieguldījumiem. - Amazon Bedrock ar
us.amazon.nova-pro-v1:0vaius.amazon.nova-2-lite-v1:0atzīmēšanai. - Amazon OpenSearch Service 2.11+ ar k-NN spraudni.
- Amazon S3 glabāšanai.
Multimodālās video meklēšanas risinājuma ieviešana
Sākot darbu ar šo arhitektūru, ir jāievēro strukturēta pieeja AWS vides iestatīšanai. Pirmais svarīgais solis ir nepieciešamo atļauju izveidošana.
1. solis: Izveidot IAM lomas un politikas
Jums būs jāizveido IAM loma, kas piešķir jūsu lietojumprogrammai vai pakalpojumam tiesības mijiedarboties ar dažādām AWS komponentēm. Šai lomai jāietver atļaujas Amazon Bedrock modeļu izsaukšanai (gan ieguldījumu ģenerēšanai, gan atzīmēšanai), datu rakstīšanai OpenSearch indeksos un lasīšanas/rakstīšanas operāciju veikšanai Amazon S3 saglabātuvēs, kur atrodas jūsu video saturs un apstrādātie rezultāti.
Šeit ir pamata IAM politikas struktūras piemērs:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Šī politika piešķir specifiskas atļaujas, kas ir būtiskas konveijera darbībai. Atcerieties aizstāt vietturus, piemēram, your-video-bucket un your-opensearch-domain, ar saviem faktiskajiem resursu nosaukumiem. Pēc IAM iestatīšanas jūs turpinātu ar S3 saglabātuvju konfigurēšanu, OpenSearch Service domēna iestatīšanu ar iespējotu k-NN un orķestrēšanas loģikas izstrādi, kas izmanto Bedrock API ievadīšanai. Šis robustais ietvars nodrošina, ka plašsaziņas līdzekļu un izklaides uzņēmumi var efektīvi pārvaldīt, atklāt un monetizēt savas arvien augošās satura bibliotēkas, iezīmējot būtisku lēcienu satura inteliģencē. Šis visaptverošais risinājums ir piemērs tam, kā mūsdienu AI iespējas, īpaši multimodālā izpratnē, no jauna definē nozares standartus satura pārvaldībai un pieejamībai. Tas ir apliecinājums tam, cik jaudīga ir progresīvu AI modeļu integrēšana ar mērogojamu mākoņinfrastruktūru, lai atrisinātu reālās pasaules Uzņēmuma AI izaicinājumus, veicinot sasniegumus, kas līdzīgi tiem, kas novēroti Aģentu AI darba plūsmās.
Sākotnējais avots
https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/Bieži uzdotie jautājumi
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Esiet informēti
Saņemiet jaunākās AI ziņas savā e-pastā.
