Multimodal Embeddings ilə Video Axtarışda İnqilab
Media və əyləncə sənayesi geniş video məzmunu okeanları ilə doludur. Arxiv kadrlarından gündəlik yükləmələrə qədər, böyük həcm ənənəvi məzmun kəşfi metodlarını — əl ilə taglama və açar söz əsaslı axtarışları — getdikcə daha səmərəsiz və çox vaxt qeyri-dəqiq edir. Bu köhnəlmiş yanaşmalar videoda mövcud olan bütün zənginliyi və incə konteksti ələ keçirməkdə çətinlik çəkir, bu da məzmunun təkrar istifadəsi, daha sürətli istehsal və təkmilləşdirilmiş izləyici təcrübələri üçün əldən verilən imkanlara səbəb olur.
Multimodal embeddinglər dövrü gəlir. AWS, bu məhdudiyyətləri aşan, nəhəng video məlumat dəstləri üzrə semantik axtarış imkanlarını təmin edən bir həllə öncülük edir. Amazon Nova modellərinin və Amazon OpenSearch Service gücünü istifadə edərək, məzmun yaradıcıları və distribyutorları media kitabxanalarını həqiqətən anlamaq və əldə etmək üçün səthi açar sözlərdən kənara çıxa bilərlər. Bu innovativ yanaşma, məzmun kəşfinə görünməmiş dəqiqlik gətirərək, təbii dil sorğularının vizual və səs məlumatlarının dərinliklərini öyrənməsinə imkan verir.
Bu imkanı təsirli miqyasda nümayiş etdirən AWS, AWS Open Data Registry-dən 792,270 videonu emal etmişdir ki, bu da 8,480 saatlıq video məzmununu əhatə edir. 30.5 milyon saniyədən çox videonun emalı üçün cəmi 41 saat çəkən bu iddialı iş, süni intellekt əsaslı bu yanaşmanın miqyaslana bilənliyini və səmərəliliyini vurğulayır. Birinci ilin xərci, birdəfəlik qəbul və illik OpenSearch Service daxil olmaqla, yüksək rəqabətli $23,632 (OpenSearch Service Reserved Instances ilə) ilə $27,328 (on-demand ilə) arasında qiymətləndirildi. Belə bir həll, media şirkətlərinin rəqəmsal aktivləri ilə necə qarşılıqlı əlaqə qurduğunu kökündən dəyişdirir, məzmun monetizasiyası və istehsal iş axınları üçün yeni yollar açır. Semantik anlayışa doğru bu paradigma dəyişikliyi, mediada Müəssisə Süni İntellekti üçün kritik bir inkişafdır.
Miqyaslana Bilən Multimodal Süni İntellekt Data Lake Arxitekturasını Anlamaq
Əsasında, bu güclü multimodal video axtarış sistemi iki bir-biri ilə əlaqəli iş axınına əsaslanır: video qəbulu və axtarış. Bu komponentlər video məzmununun incə detallarını anlayan və axtarışa yararlı edən bir süni intellekt data lake yaratmaq üçün qüsursuz şəkildə inteqrasiya olunur.
Video Qəbul Boru Kəməri
Qəbul boru kəməri paralel emal və səmərəlilik üçün nəzərdə tutulmuşdur. O, dörd Amazon EC2 c7i.48xlarge instansiyasından istifadə edir, saatda 19,400 videonun emal sürətinə nail olmaq üçün 600-ə qədər paralel işçini idarə edir. Əvvəlcə Amazon S3-ə yüklənən videolar daha sonra Amazon Nova Multimodal Embeddings asinxron API tərəfindən emal olunur. Bu API, videoları optimal 15 saniyəlik hissələrə bölür — bu, əhəmiyyətli səhnə dəyişikliklərini ələ keçirmək və yaradılan embeddinglərin həcmini idarə etmək arasında bir balansdır. Hər bir seqment daha sonra özünün birləşdirilmiş audio-vizual xüsusiyyətlərini təmsil edən 1024 ölçülü embeddingə çevrilir. 3072 ölçülü embeddinglər daha yüksək dəqiqlik təklif etsə də, 1024 ölçülü seçim bu tətbiq üçün dəqiqliyə minimal təsir göstərməklə 3 qat saxlama xərclərinə qənaət təmin edir, bu da onu miqyas üçün praqmatik bir seçim edir.
Axtarış imkanlarını daha da artırmaq üçün, Amazon Nova Pro (və ya daha yeni, daha sərfəli Nova 2 Lite) əvvəlcədən təyin olunmuş taksonomiyadan hər video üçün 10-15 təsviredici tag yaratmaq üçün istifadə olunur. Bu ikili yanaşma, məzmunun həm semantik oxşarlıq, həm də ənənəvi açar söz uyğunluğu vasitəsilə tapılmasını təmin edir. Bu embeddinglər vektor oxşarlığı axtarışı üçün optimallaşdırılmış OpenSearch k-NN indeksində saxlanılır, təsviredici taglar isə ayrıca mətn indeksində indekslənir. Bu ayrılma çevik və effektiv sorğulamağa imkan verir. Boru kəməri Bedrock-un uyğunluq məhdudiyyətlərini (hər hesab üçün 30 paralel iş) möhkəm iş cədvəli və sorğu mexanizmi vasitəsilə idarə edir, fasiləsiz və qaydalara uyğun emalı təmin edir.
Aşağıda bu mürəkkəb qəbul prosesinin vizual təsviri verilmişdir:

Şəkil 1: S3 video yaddaşından Nova Multimodal Embeddings və Nova Pro vasitəsilə ikili OpenSearch indekslərinə qədər axını göstərən video qəbul boru kəməri
Müxtəlif Video Axtarış İmkanlarını Gücləndirmək
Axtarış arxitekturası çox yönlü olmaq üçün nəzərdə tutulmuşdur, məzmun kəşfinin müxtəlif rejimlərini təklif edir:
-
Mətndən videoya axtarış: İstifadəçilər "gecə səs-küylü şəhərin dron çəkilişi" və ya "gurme yeməyi hazırlayan aşpazın yaxın planı" kimi təbii dil sorğuları daxil edə bilərlər. Sistem bu sorğuları embeddinglərə çevirir, sonra OpenSearch k-NN indeksini istifadə edərək təsvirə semantik olaraq uyğun gələn video seqmentləri və ya bütün videoları tapır, hətta dəqiq sözlər heç bir metadatada olmasa belə. Bu, intuitiv məzmun kəşfi və ssenariləşdirmə üçün idealdır.
-
Videodan videoya axtarış: İstifadəçinin bir video klipi olduğu və oxşar məzmunu tapmaq istədiyi ssenarilər üçün bu rejim üstündür. Giriş videosunun embeddinglərini OpenSearch k-NN indeksindəkilərlə birbaşa müqayisə etməklə, sistem vizual və səs baxımından analoji məzmunu müəyyən edə bilər. Bu, B-roll kadrlarını müəyyənləşdirmək, məzmunun ardıcıllığını təmin etmək və ya törəmə əsərləri kəşf etmək üçün əvəzsizdir.
-
Hibrid Axtarış: Hibrid axtarış hər iki dünyanın ən yaxşısını birləşdirir, vektor oxşarlığını ənənəvi açar söz uyğunluğu ilə inteqrasiya edir. Təklif olunan həll çəkili yanaşmadan (məsələn, 70% vektor oxşarlığı və 30% açar söz uyğunluğu) istifadə edir. Bu, yüksək dəqiqlik və aktuallığı təmin edir, semantik anlayış geniş kontekstual uyğunluqları təmin edərkən xüsusi metadatanın axtarışa rəhbərlik etməsinə imkan verir. Bu yanaşma, həm dəqiq taglardan, həm də konseptual anlayışdan faydalanan mürəkkəb sorğular üçün xüsusilə effektivdir.

Şəkil 2: Üç axtarış rejimini – mətndən videoya, videodan videoya və k-NN ilə BM25-i birləşdirən hibrid axtarışı nümayiş etdirən video axtarış arxitekturası
Səmərəli Yerləşdirmə və İlkin Şərtlər
Belə mürəkkəb bir süni intellekt data lake-in yerləşdirilməsi infrastruktur və xərclərin diqqətli şəkildə nəzərdən keçirilməsini tələb edir ki, AWS bunu səmərəlilik üçün optimallaşdırmışdır. Geniş məlumat dəstləri, təxminən 8,480 saatlıq video məzmununun emalı üçün ümumi xərc, birinci il üçün təxminən $27,328 (OpenSearch on-demand ilə) və ya $23,632 (OpenSearch Service Reserved Instances ilə) təşkil etmişdir.
Qəbulun bölgüsü əsas xərc sürücülərini vurğulayır:
- Amazon EC2 hesablama: $421 (41 saat üçün 4x c7i.48xlarge spot instansiyası)
- Amazon Bedrock Nova Multimodal Embeddings: $17,096 (30.5 milyon saniyə, saniyəsinə $0.00056 toplu qiymətləndirmə ilə)
- Nova Pro taglaması: $571 (792K video, hər video üçün orta hesabla təxminən 600 token)
- Amazon OpenSearch Service: $9,240 (on-demand illik) və ya $5,544 (Reserved illik)
Tətbiq üçün ilkin şərtlər: Bu həlli təkrar etmək və ya uyğunlaşdırmaq üçün sizə lazım olacaq:
us-east-1bölgəsində Amazon Bedrock-a çıxışı olan bir AWS hesabı.- Python 3.9 və ya daha yeni versiyası.
- Müvafiq etimadnamələrlə konfiqurasiya edilmiş AWS Komanda Sətiri İnterfeysi (AWS CLI).
- k-NN plagini aktivləşdirilmiş, 2.11 və ya daha yeni versiyası olan Amazon OpenSearch Service domeni (r6g.large və ya daha böyüyü tövsiyə olunur).
- Video saxlama və embedding nəticələri üçün Amazon S3 buketi.
- Amazon Bedrock, OpenSearch Service və Amazon S3 üçün AWS Identity and Access Management (IAM) icazələri.
Həll xüsusi AWS xidmətlərindən və modellərindən istifadə edir:
- Embeddings üçün
amazon.nova-2-multimodal-embeddings-v1:0ilə Amazon Bedrock. - Taglama üçün
us.amazon.nova-pro-v1:0və yaus.amazon.nova-2-lite-v1:0ilə Amazon Bedrock. - k-NN plagini ilə Amazon OpenSearch Service 2.11+.
- Saxlama üçün Amazon S3.
Multimodal Video Axtarış Həllinin Tətbiqi
Bu arxitektura ilə başlamaq, AWS mühitinizi qurmaq üçün strukturlaşdırılmış bir yanaşma tələb edir. İlk kritik addım, zəruri icazələrin yaradılmasıdır.
Addım 1: IAM Rolları və Siyasətləri Yaratmaq
Proqramınıza və ya xidmətinizə müxtəlif AWS komponentləri ilə qarşılıqlı əlaqə qurmaq səlahiyyəti verən bir IAM rolu yaratmalısınız. Bu rol, Amazon Bedrock modellərini (həm embedding yaratma, həm də taglama üçün) çağırmaq, məlumatları OpenSearch indekslərinə yazmaq və video məzmununuzun və emal edilmiş nəticələrin saxlandığı Amazon S3 buketlərində oxuma/yazma əməliyyatlarını yerinə yetirmək üçün icazələri ehtiva etməlidir.
Aşağıda əsas IAM siyasəti strukturuna bir nümunə verilmişdir:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Bu siyasət, boru kəmərinin işləməsi üçün vacib olan xüsusi icazələri verir. your-video-bucket və your-opensearch-domain kimi yer tutan adları faktiki resurs adlarınızla əvəz etməyi unutmayın. IAM quraşdırılmasından sonra, S3 buketlərinizi konfiqurasiya etməyə, k-NN aktivləşdirilmiş OpenSearch Service domeninizi qurmağa və qəbul üçün Bedrock API-lərini istifadə edən idarəetmə məntiqini inkişaf etdirməyə davam edəcəksiniz. Bu möhkəm çərçivə, media və əyləncə şirkətlərinin daim artan məzmun kitabxanalarını səmərəli şəkildə idarə etməsini, kəşf etməsini və monetizasiya etməsini təmin edir, bu da məzmun intellektində əhəmiyyətli bir sıçrayış deməkdir. Bu hərtərəfli həll, müasir süni intellekt imkanlarının, xüsusilə multimodal anlayışda, məzmun idarəetməsi və əlçatanlığı üçün sənaye standartlarını necə yenidən müəyyənləşdirdiyinə bir nümunədir. Bu, qabaqcıl süni intellekt modellərini miqyaslana bilən bulud infrastrukturu ilə birləşdirməyin real dünya Müəssisə Süni İntellekti problemlərini həll etmək üçün gücünə bir sübutdur, Agentik Süni İntellekt iş axınlarında müşahidə olunan irəliləyişlərə bənzər irəliləyişləri təşviq edir.
Tez-tez Verilən Suallar
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Xəbərdar olun
Ən son AI xəbərlərini e-poçtunuza alın.
