Multimodal Embeddings miqyası: Media və Əyləncə üçün Süni İntellekt Data Lake

Multimodal Embeddings ilə Video Axtarışda İnqilab

Media və əyləncə sənayesi geniş video məzmunu okeanları ilə doludur. Arxiv kadrlarından gündəlik yükləmələrə qədər, böyük həcm ənənəvi məzmun kəşfi metodlarını — əl ilə taglama və açar söz əsaslı axtarışları — getdikcə daha səmərəsiz və çox vaxt qeyri-dəqiq edir. Bu köhnəlmiş yanaşmalar videoda mövcud olan bütün zənginliyi və incə konteksti ələ keçirməkdə çətinlik çəkir, bu da məzmunun təkrar istifadəsi, daha sürətli istehsal və təkmilləşdirilmiş izləyici təcrübələri üçün əldən verilən imkanlara səbəb olur.

Multimodal embeddinglər dövrü gəlir. AWS, bu məhdudiyyətləri aşan, nəhəng video məlumat dəstləri üzrə semantik axtarış imkanlarını təmin edən bir həllə öncülük edir. Amazon Nova modellərinin və Amazon OpenSearch Service gücünü istifadə edərək, məzmun yaradıcıları və distribyutorları media kitabxanalarını həqiqətən anlamaq və əldə etmək üçün səthi açar sözlərdən kənara çıxa bilərlər. Bu innovativ yanaşma, məzmun kəşfinə görünməmiş dəqiqlik gətirərək, təbii dil sorğularının vizual və səs məlumatlarının dərinliklərini öyrənməsinə imkan verir.

Bu imkanı təsirli miqyasda nümayiş etdirən AWS, AWS Open Data Registry-dən 792,270 videonu emal etmişdir ki, bu da 8,480 saatlıq video məzmununu əhatə edir. 30.5 milyon saniyədən çox videonun emalı üçün cəmi 41 saat çəkən bu iddialı iş, süni intellekt əsaslı bu yanaşmanın miqyaslana bilənliyini və səmərəliliyini vurğulayır. Birinci ilin xərci, birdəfəlik qəbul və illik OpenSearch Service daxil olmaqla, yüksək rəqabətli $23,632 (OpenSearch Service Reserved Instances ilə) ilə $27,328 (on-demand ilə) arasında qiymətləndirildi. Belə bir həll, media şirkətlərinin rəqəmsal aktivləri ilə necə qarşılıqlı əlaqə qurduğunu kökündən dəyişdirir, məzmun monetizasiyası və istehsal iş axınları üçün yeni yollar açır. Semantik anlayışa doğru bu paradigma dəyişikliyi, mediada Müəssisə Süni İntellekti üçün kritik bir inkişafdır.

Miqyaslana Bilən Multimodal Süni İntellekt Data Lake Arxitekturasını Anlamaq

Əsasında, bu güclü multimodal video axtarış sistemi iki bir-biri ilə əlaqəli iş axınına əsaslanır: video qəbulu və axtarış. Bu komponentlər video məzmununun incə detallarını anlayan və axtarışa yararlı edən bir süni intellekt data lake yaratmaq üçün qüsursuz şəkildə inteqrasiya olunur.

Video Qəbul Boru Kəməri

Qəbul boru kəməri paralel emal və səmərəlilik üçün nəzərdə tutulmuşdur. O, dörd Amazon EC2 c7i.48xlarge instansiyasından istifadə edir, saatda 19,400 videonun emal sürətinə nail olmaq üçün 600-ə qədər paralel işçini idarə edir. Əvvəlcə Amazon S3-ə yüklənən videolar daha sonra Amazon Nova Multimodal Embeddings asinxron API tərəfindən emal olunur. Bu API, videoları optimal 15 saniyəlik hissələrə bölür — bu, əhəmiyyətli səhnə dəyişikliklərini ələ keçirmək və yaradılan embeddinglərin həcmini idarə etmək arasında bir balansdır. Hər bir seqment daha sonra özünün birləşdirilmiş audio-vizual xüsusiyyətlərini təmsil edən 1024 ölçülü embeddingə çevrilir. 3072 ölçülü embeddinglər daha yüksək dəqiqlik təklif etsə də, 1024 ölçülü seçim bu tətbiq üçün dəqiqliyə minimal təsir göstərməklə 3 qat saxlama xərclərinə qənaət təmin edir, bu da onu miqyas üçün praqmatik bir seçim edir.

Axtarış imkanlarını daha da artırmaq üçün, Amazon Nova Pro (və ya daha yeni, daha sərfəli Nova 2 Lite) əvvəlcədən təyin olunmuş taksonomiyadan hər video üçün 10-15 təsviredici tag yaratmaq üçün istifadə olunur. Bu ikili yanaşma, məzmunun həm semantik oxşarlıq, həm də ənənəvi açar söz uyğunluğu vasitəsilə tapılmasını təmin edir. Bu embeddinglər vektor oxşarlığı axtarışı üçün optimallaşdırılmış OpenSearch k-NN indeksində saxlanılır, təsviredici taglar isə ayrıca mətn indeksində indekslənir. Bu ayrılma çevik və effektiv sorğulamağa imkan verir. Boru kəməri Bedrock-un uyğunluq məhdudiyyətlərini (hər hesab üçün 30 paralel iş) möhkəm iş cədvəli və sorğu mexanizmi vasitəsilə idarə edir, fasiləsiz və qaydalara uyğun emalı təmin edir.

Aşağıda bu mürəkkəb qəbul prosesinin vizual təsviri verilmişdir:

Şəkil 1: S3 video yaddaşından Nova Multimodal Embeddings və Nova Pro vasitəsilə ikili OpenSearch indekslərinə qədər axını göstərən video qəbul boru kəməri

Müxtəlif Video Axtarış İmkanlarını Gücləndirmək

Axtarış arxitekturası çox yönlü olmaq üçün nəzərdə tutulmuşdur, məzmun kəşfinin müxtəlif rejimlərini təklif edir:

Mətndən videoya axtarış: İstifadəçilər "gecə səs-küylü şəhərin dron çəkilişi" və ya "gurme yeməyi hazırlayan aşpazın yaxın planı" kimi təbii dil sorğuları daxil edə bilərlər. Sistem bu sorğuları embeddinglərə çevirir, sonra OpenSearch k-NN indeksini istifadə edərək təsvirə semantik olaraq uyğun gələn video seqmentləri və ya bütün videoları tapır, hətta dəqiq sözlər heç bir metadatada olmasa belə. Bu, intuitiv məzmun kəşfi və ssenariləşdirmə üçün idealdır.
Videodan videoya axtarış: İstifadəçinin bir video klipi olduğu və oxşar məzmunu tapmaq istədiyi ssenarilər üçün bu rejim üstündür. Giriş videosunun embeddinglərini OpenSearch k-NN indeksindəkilərlə birbaşa müqayisə etməklə, sistem vizual və səs baxımından analoji məzmunu müəyyən edə bilər. Bu, B-roll kadrlarını müəyyənləşdirmək, məzmunun ardıcıllığını təmin etmək və ya törəmə əsərləri kəşf etmək üçün əvəzsizdir.
Hibrid Axtarış: Hibrid axtarış hər iki dünyanın ən yaxşısını birləşdirir, vektor oxşarlığını ənənəvi açar söz uyğunluğu ilə inteqrasiya edir. Təklif olunan həll çəkili yanaşmadan (məsələn, 70% vektor oxşarlığı və 30% açar söz uyğunluğu) istifadə edir. Bu, yüksək dəqiqlik və aktuallığı təmin edir, semantik anlayış geniş kontekstual uyğunluqları təmin edərkən xüsusi metadatanın axtarışa rəhbərlik etməsinə imkan verir. Bu yanaşma, həm dəqiq taglardan, həm də konseptual anlayışdan faydalanan mürəkkəb sorğular üçün xüsusilə effektivdir.

Şəkil 2: Üç axtarış rejimini – mətndən videoya, videodan videoya və k-NN ilə BM25-i birləşdirən hibrid axtarışı nümayiş etdirən video axtarış arxitekturası

Səmərəli Yerləşdirmə və İlkin Şərtlər

Belə mürəkkəb bir süni intellekt data lake-in yerləşdirilməsi infrastruktur və xərclərin diqqətli şəkildə nəzərdən keçirilməsini tələb edir ki, AWS bunu səmərəlilik üçün optimallaşdırmışdır. Geniş məlumat dəstləri, təxminən 8,480 saatlıq video məzmununun emalı üçün ümumi xərc, birinci il üçün təxminən $27,328 (OpenSearch on-demand ilə) və ya $23,632 (OpenSearch Service Reserved Instances ilə) təşkil etmişdir.

Qəbulun bölgüsü əsas xərc sürücülərini vurğulayır:

Amazon EC2 hesablama: $421 (41 saat üçün 4x c7i.48xlarge spot instansiyası)
Amazon Bedrock Nova Multimodal Embeddings: $17,096 (30.5 milyon saniyə, saniyəsinə $0.00056 toplu qiymətləndirmə ilə)
Nova Pro taglaması: $571 (792K video, hər video üçün orta hesabla təxminən 600 token)
Amazon OpenSearch Service: $9,240 (on-demand illik) və ya $5,544 (Reserved illik)

Tətbiq üçün ilkin şərtlər: Bu həlli təkrar etmək və ya uyğunlaşdırmaq üçün sizə lazım olacaq:

us-east-1 bölgəsində Amazon Bedrock-a çıxışı olan bir AWS hesabı.
Python 3.9 və ya daha yeni versiyası.
Müvafiq etimadnamələrlə konfiqurasiya edilmiş AWS Komanda Sətiri İnterfeysi (AWS CLI).
k-NN plagini aktivləşdirilmiş, 2.11 və ya daha yeni versiyası olan Amazon OpenSearch Service domeni (r6g.large və ya daha böyüyü tövsiyə olunur).
Video saxlama və embedding nəticələri üçün Amazon S3 buketi.
Amazon Bedrock, OpenSearch Service və Amazon S3 üçün AWS Identity and Access Management (IAM) icazələri.

Həll xüsusi AWS xidmətlərindən və modellərindən istifadə edir:

Embeddings üçün amazon.nova-2-multimodal-embeddings-v1:0 ilə Amazon Bedrock.
Taglama üçün us.amazon.nova-pro-v1:0 və ya us.amazon.nova-2-lite-v1:0 ilə Amazon Bedrock.
k-NN plagini ilə Amazon OpenSearch Service 2.11+.
Saxlama üçün Amazon S3.

Multimodal Video Axtarış Həllinin Tətbiqi

Bu arxitektura ilə başlamaq, AWS mühitinizi qurmaq üçün strukturlaşdırılmış bir yanaşma tələb edir. İlk kritik addım, zəruri icazələrin yaradılmasıdır.

Addım 1: IAM Rolları və Siyasətləri Yaratmaq

Proqramınıza və ya xidmətinizə müxtəlif AWS komponentləri ilə qarşılıqlı əlaqə qurmaq səlahiyyəti verən bir IAM rolu yaratmalısınız. Bu rol, Amazon Bedrock modellərini (həm embedding yaratma, həm də taglama üçün) çağırmaq, məlumatları OpenSearch indekslərinə yazmaq və video məzmununuzun və emal edilmiş nəticələrin saxlandığı Amazon S3 buketlərində oxuma/yazma əməliyyatlarını yerinə yetirmək üçün icazələri ehtiva etməlidir.

Aşağıda əsas IAM siyasəti strukturuna bir nümunə verilmişdir:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Bu siyasət, boru kəmərinin işləməsi üçün vacib olan xüsusi icazələri verir. your-video-bucket və your-opensearch-domain kimi yer tutan adları faktiki resurs adlarınızla əvəz etməyi unutmayın. IAM quraşdırılmasından sonra, S3 buketlərinizi konfiqurasiya etməyə, k-NN aktivləşdirilmiş OpenSearch Service domeninizi qurmağa və qəbul üçün Bedrock API-lərini istifadə edən idarəetmə məntiqini inkişaf etdirməyə davam edəcəksiniz. Bu möhkəm çərçivə, media və əyləncə şirkətlərinin daim artan məzmun kitabxanalarını səmərəli şəkildə idarə etməsini, kəşf etməsini və monetizasiya etməsini təmin edir, bu da məzmun intellektində əhəmiyyətli bir sıçrayış deməkdir. Bu hərtərəfli həll, müasir süni intellekt imkanlarının, xüsusilə multimodal anlayışda, məzmun idarəetməsi və əlçatanlığı üçün sənaye standartlarını necə yenidən müəyyənləşdirdiyinə bir nümunədir. Bu, qabaqcıl süni intellekt modellərini miqyaslana bilən bulud infrastrukturu ilə birləşdirməyin real dünya Müəssisə Süni İntellekti problemlərini həll etmək üçün gücünə bir sübutdur, Agentik Süni İntellekt iş axınlarında müşahidə olunan irəliləyişlərə bənzər irəliləyişləri təşviq edir.

Orijinal mənbə

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Tez-tez Verilən Suallar

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Xəbərdar olun

Ən son AI xəbərlərini e-poçtunuza alın.

Paylaş