ვიდეო ძიების რევოლუცია მულტიმოდალური ჩაშენებების გამოყენებით
მედია და გართობის ინდუსტრია ვიდეო კონტენტის ვრცელი ოკეანეებით არის მოცული. საარქივო მასალიდან ყოველდღიურ ატვირთვებამდე, მოცულობის სიმრავლე ტრადიციულ კონტენტის აღმოჩენის მეთოდებს — ხელით დატეგვასა და საკვანძო სიტყვებზე დაფუძნებულ ძიებებს — სულ უფრო არაეფექტურს და ხშირად არაზუსტს ხდის. ეს მოძველებული მიდგომები ვერ ახერხებენ ვიდეოში ჩადებული სრული სიმდიდრისა და ნიუანსური კონტექსტის დაჭერას, რაც იწვევს კონტენტის ხელახალი გამოყენების, წარმოების დაჩქარებისა და მაყურებლისთვის გაუმჯობესებული გამოცდილების ხელიდან გაშვებულ შესაძლებლობებს.
დადგა მულტიმოდალური ჩაშენებების ერა. AWS პიონერულად ნერგავს გადაწყვეტას, რომელიც სცილდება ამ შეზღუდვებს, რაც შესაძლებელს ხდის სემანტიკურ ძიებას კოლოსალურ ვიდეო მონაცემთა ნაკრებებზე. Amazon Nova მოდელებისა და Amazon OpenSearch Service-ის ძალის გამოყენებით, კონტენტის შემქმნელებსა და დისტრიბუტორებს შეუძლიათ გასცდნენ ზედაპირულ საკვანძო სიტყვებს, რათა ჭეშმარიტად გაიგონ და მიიღონ წვდომა თავიანთ მედია ბიბლიოთეკებზე. ეს ინოვაციური მიდგომა ბუნებრივი ენის მოთხოვნებს საშუალებას აძლევს ჩაეძიოს ვიზუალური და აუდიტორული ინფორმაციის სიღრმეებს, რაც უპრეცედენტო სიზუსტეს შემოაქვს კონტენტის აღმოჩენაში.
ამ შესაძლებლობის შთამბეჭდავი მასშტაბით დემონსტრირებით, AWS-მა დაამუშავა 792,270 ვიდეო AWS Open Data Registry-დან, რაც მოიცავს ვიდეო კონტენტის გასაოცარ 8,480 საათს. ამ ამბიციურმა წამოწყებამ, რომელსაც მხოლოდ 41 საათი დასჭირდა 30.5 მილიონზე მეტი წამის ვიდეოს დასამუშავებლად, ხაზს უსვამს ამ ხელოვნური ინტელექტის მართული მიდგომის მასშტაბურობასა და ეფექტურობას. პირველი წლის ხარჯი, ერთჯერადი მიღების და ყოველწლიური OpenSearch Service-ის ჩათვლით, შეფასდა მაღალ კონკურენტულ $23,632-დან (OpenSearch Service Reserved Instances-ით) $27,328-მდე (on-demand). ასეთი გადაწყვეტა ფუნდამენტურად ცვლის იმას, თუ როგორ ურთიერთობენ მედია კომპანიები თავიანთ ციფრულ აქტივებთან, ხსნის ახალ გზებს კონტენტის მონეტიზაციისა და წარმოების სამუშაო პროცესებისთვის. ეს პარადიგმის ცვლილება სემანტიკური გაგებისკენ არის კრიტიკული განვითარება კორპორატიული ხელოვნური ინტელექტისთვის მედიაში.
მასშტაბირებადი მულტიმოდალური ხელოვნური ინტელექტის მონაცემთა ტბის არქიტექტურის გაგება
თავის არსში, ვიდეო ძიების ეს მძლავრი მულტიმოდალური სისტემა აგებულია ორ ურთიერთდაკავშირებულ სამუშაო პროცესზე: ვიდეოს მიღება (ingestion) და ძიება. ეს კომპონენტები უწყვეტად ინტეგრირდება ხელოვნური ინტელექტის მონაცემთა ტბის შესაქმნელად, რომელიც გაიგებს და მოსაძებნს ხდის ვიდეო კონტენტის რთულ დეტალებს.
ვიდეოს მიღების (ინჯესტირების) კონვეიერი
მიღების კონვეიერი შექმნილია პარალელური დამუშავებისა და ეფექტურობისთვის. ის იყენებს ოთხ Amazon EC2 c7i.48xlarge ინსტანციას, ორკესტრირებს 600-მდე პარალელურ მუშაკს, რათა მიაღწიოს 19,400 ვიდეოს დამუშავების სიჩქარეს საათში. თავდაპირველად Amazon S3-ში ატვირთული ვიდეოები შემდეგ მუშავდება Amazon Nova Multimodal Embeddings ასინქრონული API-ის მიერ. ეს API ინტელექტუალურად ყოფს ვიდეოებს ოპტიმალურ 15-წამიან ნაწილებად — რაც არის ბალანსი მნიშვნელოვანი სცენების ცვლილებების აღებასა და გენერირებული ჩაშენებების მოცულობის მართვას შორის. თითოეული სეგმენტი შემდეგ გარდაიქმნება 1024-განზომილებიან ჩაშენებად, რომელიც წარმოადგენს მის კომბინირებულ აუდიო-ვიზუალურ მახასიათებლებს. მიუხედავად იმისა, რომ 3072-განზომილებიანი ჩაშენებები უფრო მაღალ სიზუსტეს გვთავაზობს, 1024-განზომილებიანი ვარიანტი უზრუნველყოფს 3-ჯერ შენახვის ხარჯების დაზოგვას სიზუსტეზე მინიმალური გავლენით ამ აპლიკაციისთვის, რაც მას მასშტაბისთვის პრაგმატულ არჩევანად აქცევს.
ძიების გაუმჯობესების მიზნით, Amazon Nova Pro (ან უფრო ახალი, ხარჯთეფექტური Nova 2 Lite) გამოიყენება 10-15 აღწერილობითი ტეგის გენერირებისთვის ვიდეოზე წინასწარ განსაზღვრული ტაქსონომიიდან. ეს ორმაგი მიდგომა უზრუნველყოფს, რომ კონტენტი აღმოჩენილი იყოს როგორც სემანტიკური მსგავსების, ასევე ტრადიციული საკვანძო სიტყვების შესატყვისობის მეშვეობით. ეს ჩაშენებები ინახება OpenSearch k-NN ინდექსში, რომელიც ოპტიმიზირებულია ვექტორული მსგავსების ძიებისთვის, ხოლო აღწერილობითი ტეგები ინდექსირებულია ცალკე ტექსტურ ინდექსში. ეს განცალკევება საშუალებას იძლევა მოქნილი და ეფექტური მოთხოვნებისთვის. კონვეიერი მართავს Bedrock-ის პარალელური ლიმიტებს (30 პარალელური სამუშაო ანგარიშზე) მძლავრი სამუშაო რიგისა და გამოკითხვის მექანიზმის მეშვეობით, რაც უზრუნველყოფს უწყვეტ და შესაბამის დამუშავებას.
ქვემოთ მოცემულია ამ დახვეწილი მიღების პროცესის ვიზუალური წარმოდგენა:

სურათი 1: ვიდეოს მიღების კონვეიერი, რომელიც აჩვენებს ნაკადს S3 ვიდეო საცავიდან Nova Multimodal Embeddings-ისა და Nova Pro-ს გავლით ორ OpenSearch ინდექსში
ვიდეო ძიების მრავალფეროვანი შესაძლებლობების გაძლიერება
ძიების არქიტექტურა შექმნილია მრავალფეროვნებისთვის, რაც კონტენტის აღმოჩენის მრავალ რეჟიმს გვთავაზობს:
-
ტექსტი-ვიდეოზე ძიება: მომხმარებლებს შეუძლიათ შეიყვანონ ბუნებრივი ენის მოთხოვნები, როგორიცაა "დრონის კადრი ღამის ხმაურიანი ქალაქის" ან "მზარეულის ახლო კადრი, რომელიც გურმანულ კერძს ამზადებს". სისტემა ამ მოთხოვნებს გარდაქმნის ჩაშენებებად, შემდეგ იყენებს OpenSearch k-NN ინდექსს, რათა იპოვოს ვიდეო სეგმენტები ან მთლიანი ვიდეოები, რომლებიც სემანტიკურად ემთხვევა აღწერას, მაშინაც კი, თუ ზუსტი სიტყვები არ არის რაიმე მეტამონაცემებში. ეს იდეალურია კონტენტის ინტუიციური აღმოჩენისა და სცენარისთვის.
-
ვიდეო-ვიდეოზე ძიება: სცენარებისთვის, სადაც მომხმარებელს აქვს ვიდეო კლიპი და სურს მსგავსი კონტენტის პოვნა, ეს რეჟიმი შესანიშნავია. შეტანილი ვიდეოს ჩაშენებების პირდაპირ OpenSearch k-NN ინდექსში არსებულ ჩაშენებებთან შედარებით, სისტემას შეუძლია ვიზუალურად და აუდიალურად ანალოგიური კონტენტის იდენტიფიცირება. ეს ფასდაუდებელია B-roll კადრების იდენტიფიცირებისთვის, კონტენტის თანმიმდევრულობის უზრუნველსაყოფად ან წარმოებული ნამუშევრების აღმოსაჩენად.
-
ჰიბრიდული ძიება: აერთიანებს ორივე სამყაროს საუკეთესოს, ჰიბრიდული ძიება აინტეგრირებს ვექტორულ მსგავსებას ტრადიციულ საკვანძო სიტყვების შესატყვისობასთან. შემოთავაზებული გადაწყვეტა იყენებს შეწონილ მიდგომას (მაგ., 70% ვექტორული მსგავსება და 30% საკვანძო სიტყვების შესატყვისობა). ეს უზრუნველყოფს მაღალ სიზუსტესა და შესაბამისობას, რაც საშუალებას აძლევს კონკრეტულ მეტამონაცემებს წარმართოს ძიება, ხოლო სემანტიკური გაგება უზრუნველყოფს ფართო კონტექსტურ შესატყვისობებს. ეს მიდგომა განსაკუთრებით ეფექტურია რთული მოთხოვნებისთვის, რომლებიც სარგებლობენ როგორც ზუსტი ტეგებით, ასევე კონცეპტუალური გაგებით.

სურათი 2: ვიდეო ძიების არქიტექტურა, რომელიც აჩვენებს ძიების სამ რეჟიმს – ტექსტი-ვიდეოზე, ვიდეო-ვიდეოზე და ჰიბრიდული ძიება, რომელიც აერთიანებს k-NN-ს და BM25-ს
ეფექტური განთავსება და წინაპირობები
ასეთი დახვეწილი ხელოვნური ინტელექტის მონაცემთა ტბის განთავსება მოითხოვს ინფრასტრუქტურისა და ხარჯების ფრთხილად გათვალისწინებას, რაც AWS-მა ეფექტურობისთვის ოპტიმიზირებულია. გაფართოებული მონაცემთა ნაკრებების, დაახლოებით 8,480 საათის ვიდეო კონტენტის დამუშავების საერთო ღირებულება შეადგენდა დაახლოებით $27,328-ს პირველი წლისთვის (OpenSearch on-demand-ით) ან $23,632-ს (OpenSearch Service Reserved Instances-ით).
მიღების ხარჯების ანალიზი ხაზს უსვამს ძირითად ხარჯვით ფაქტორებს:
- Amazon EC2 გამოთვლები: $421 (4x c7i.48xlarge spot ინსტანცია 41 საათის განმავლობაში)
- Amazon Bedrock Nova Multimodal Embeddings: $17,096 (30.5M წამი $0.00056/წამიანი პარტიული ფასით)
- Nova Pro დატეგვა: $571 (792K ვიდეო, დაახლოებით 600 ტოკენი/ვიდეო საშუალოდ)
- Amazon OpenSearch Service: $9,240 (on-demand წლიური) ან $5,544 (Reserved წლიური)
განხორციელების წინაპირობები: ამ გადაწყვეტის რეპლიკაციისთვის ან ადაპტაციისთვის დაგჭირდებათ:
- AWS ანგარიში Amazon Bedrock-ზე წვდომით
us-east-1რეგიონში. - Python 3.9 ან უფრო ახალი.
- AWS Command Line Interface (AWS CLI), კონფიგურირებული შესაბამისი ავტორიზაციის მონაცემებით.
- Amazon OpenSearch Service დომენი (რეკომენდებულია r6g.large ან უფრო დიდი), ვერსია 2.11 ან უფრო ახალი, k-NN პლაგინის ჩართვით.
- Amazon S3 bucket ვიდეოების შესანახად და ჩაშენების შედეგებისთვის.
- AWS Identity and Access Management (IAM) ნებართვები Amazon Bedrock-ისთვის, OpenSearch Service-ისთვის და Amazon S3-ისთვის.
გადაწყვეტა იყენებს კონკრეტულ AWS სერვისებსა და მოდელებს:
- Amazon Bedrock
amazon.nova-2-multimodal-embeddings-v1:0-ით ჩაშენებებისთვის. - Amazon Bedrock
us.amazon.nova-pro-v1:0ანus.amazon.nova-2-lite-v1:0-ით დატეგვისთვის. - Amazon OpenSearch Service 2.11+ k-NN პლაგინით.
- Amazon S3 შესანახად.
მულტიმოდალური ვიდეო ძიების გადაწყვეტის დანერგვა
ამ არქიტექტურის დანერგვა მოიცავს AWS გარემოს კონფიგურაციის სტრუქტურირებულ მიდგომას. პირველი გადამწყვეტი ნაბიჯი არის აუცილებელი ნებართვების დადგენა.
ნაბიჯი 1: IAM როლებისა და პოლიტიკების შექმნა
თქვენ უნდა შექმნათ IAM როლი, რომელიც თქვენს აპლიკაციას ან სერვისს მიანიჭებს უფლებამოსილებას AWS-ის სხვადასხვა კომპონენტთან ურთიერთობისთვის. ეს როლი უნდა მოიცავდეს ნებართვებს Amazon Bedrock მოდელების გამოძახებისთვის (როგორც ჩაშენებების გენერირებისთვის, ასევე დატეგვისთვის), მონაცემების OpenSearch ინდექსებში ჩასაწერად და Amazon S3 bucket-ებზე წაკითხვა/ჩაწერის ოპერაციების შესასრულებლად, სადაც თქვენი ვიდეო კონტენტი და დამუშავებული შედეგებია განთავსებული.
აქ მოცემულია ძირითადი IAM პოლიტიკის სტრუქტურის მაგალითი:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
ეს პოლიტიკა ანიჭებს სპეციფიკურ ნებართვებს, რომლებიც აუცილებელია კონვეიერის მუშაობისთვის. გახსოვდეთ, რომ ჩანაცვლოთ placeholder-ები, როგორიცაა your-video-bucket და your-opensearch-domain თქვენი რეალური რესურსების სახელებით. IAM-ის კონფიგურაციის შემდეგ, თქვენ გადახვალთ S3 bucket-ების კონფიგურაციაზე, OpenSearch Service დომენის დაყენებაზე k-NN-ის ჩართვით და ორკესტრირების ლოგიკის შემუშავებაზე, რომელიც იყენებს Bedrock API-ებს მიღებისთვის. ეს მძლავრი ჩარჩო უზრუნველყოფს, რომ მედია და გართობის კომპანიებმა შეძლონ ეფექტურად მართონ, აღმოაჩინონ და მოახდინონ მონეტიზაცია თავიანთი მუდმივად მზარდი კონტენტის ბიბლიოთეკებზე, რაც მნიშვნელოვან ნახტომს აღნიშნავს კონტენტის ინტელექტში. ეს ყოვლისმომცველი გადაწყვეტა არის მაგალითი იმისა, თუ როგორ აყალიბებს თანამედროვე ხელოვნური ინტელექტის შესაძლებლობები, განსაკუთრებით მულტიმოდალურ გაგებაში, ინდუსტრიის სტანდარტებს კონტენტის მართვისა და ხელმისაწვდომობისთვის. ეს არის მოწინავე ხელოვნური ინტელექტის მოდელების მასშტაბირებადი ღრუბლოვან ინფრასტრუქტურასთან ინტეგრაციის ძალის დადასტურება, რათა გადაწყდეს რეალური სამყაროს კორპორატიული ხელოვნური ინტელექტის გამოწვევები, რაც ხელს უწყობს ისეთ მიღწევებს, როგორიც ჩანს აგენტური ხელოვნური ინტელექტის სამუშაო პროცესებში.
ორიგინალი წყარო
https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/ხშირად დასმული კითხვები
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
იყავით ინფორმირებული
მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.
