Skalowalne osadzanie multimodalne: Jezioro Danych AI dla Mediów i Rozrywki

Rewolucjonizowanie Wyszukiwania Wideo dzięki Osadzaniu Multimodalnemu

Branża mediów i rozrywki tonie w ogromnych oceanach treści wideo. Od archiwalnych materiałów po codzienne przesyłanie, sama objętość sprawia, że tradycyjne metody odkrywania treści — ręczne tagowanie i wyszukiwanie oparte na słowach kluczowych — stają się coraz bardziej nieefektywne i często niedokładne. Te tradycyjne podejścia nie są w stanie uchwycić pełnego bogactwa i subtelnego kontekstu osadzonego w wideo, co prowadzi do utraconych możliwości ponownego wykorzystania treści, szybszej produkcji i ulepszonych doświadczeń widza.

Wkraczamy w erę osadzania multimodalnego. AWS jest pionierem rozwiązania, które przekracza te ograniczenia, umożliwiając możliwości wyszukiwania semantycznego w kolosalnych zbiorach danych wideo. Wykorzystując moc modeli Amazon Nova i Amazon OpenSearch Service, twórcy i dystrybutorzy treści mogą wyjść poza powierzchowne słowa kluczowe, aby naprawdę zrozumieć i uzyskać dostęp do swoich bibliotek mediów. To innowacyjne podejście pozwala zapytaniom w języku naturalnym zgłębiać wizualne i słuchowe informacje, wprowadzając bezprecedensową precyzję w odkrywaniu treści.

Demonstrując tę zdolność na imponującą skalę, AWS przetworzyło 792 270 filmów z rejestru otwartych danych AWS, obejmujących zdumiewające 8 480 godzin treści wideo. To ambitne przedsięwzięcie, które zajęło zaledwie 41 godzin na przetworzenie ponad 30,5 miliona sekund wideo, podkreśla skalowalność i efektywność tego podejścia opartego na AI. Szacowany koszt w pierwszym roku, obejmujący jednorazowe pozyskiwanie i roczny OpenSearch Service, wynosił bardzo konkurencyjne 23 632 USD (z instancjami zarezerwowanymi OpenSearch Service) do 27 328 USD (z modelem na żądanie). Takie rozwiązanie fundamentalnie zmienia sposób, w jaki firmy medialne wchodzą w interakcje ze swoimi cyfrowymi zasobami, otwierając nowe możliwości monetyzacji treści i przepływów pracy produkcyjnych. Ta zmiana paradygmatu w kierunku zrozumienia semantycznego jest kluczowym rozwojem dla AI dla Przedsiębiorstw w mediach.

Zrozumienie Skalowalnej Architektury Multimodalnego Jeziora Danych AI

W swojej istocie ten potężny system wyszukiwania wideo multimodalnego opiera się na dwóch wzajemnie połączonych przepływach pracy: pozyskiwaniu wideo i wyszukiwaniu. Te komponenty płynnie integrują się, tworząc jezioro danych AI, które rozumie i umożliwia wyszukiwanie złożonych szczegółów treści wideo.

Potok Pozyskiwania Wideo

Potok pozyskiwania został zaprojektowany z myślą o przetwarzaniu równoległym i efektywności. Wykorzystuje cztery instancje Amazon EC2 c7i.48xlarge, orkiestrując do 600 równoległych workerów, aby osiągnąć szybkość przetwarzania 19 400 filmów na godzinę. Filmy początkowo przesłane do Amazon S3 są następnie przetwarzane przez asynchroniczne API Amazon Nova Multimodal Embeddings. To API inteligentnie dzieli filmy na optymalne 15-sekundowe fragmenty — co stanowi równowagę między uchwyceniem znaczących zmian sceny a zarządzaniem objętością generowanych osadzeń. Każdy segment jest następnie przekształcany w 1024-wymiarowe osadzenie, reprezentujące jego połączone cechy audio-wizualne. Podczas gdy osadzenia 3072-wymiarowe oferują wyższą wierność, opcja 1024-wymiarowa zapewnia 3-krotną oszczędność kosztów przechowywania przy minimalnym wpływie na dokładność dla tej aplikacji, co czyni ją pragmatycznym wyborem w kontekście skalowania.

Aby jeszcze bardziej poprawić wyszukiwalność, Amazon Nova Pro (lub nowszy, bardziej ekonomiczny Nova 2 Lite) jest używany do generowania 10-15 opisowych tagów na film z predefiniowanej taksonomii. To podwójne podejście zapewnia, że treść jest możliwa do odkrycia zarówno poprzez podobieństwo semantyczne, jak i tradycyjne dopasowywanie słów kluczowych. Te osadzenia są przechowywane w indeksie OpenSearch k-NN, zoptymalizowanym do wyszukiwania podobieństwa wektorowego, podczas gdy tagi opisowe są indeksowane w osobnym indeksie tekstowym. To rozdzielenie pozwala na elastyczne i efektywne zapytania. Potok zarządza limitami współbieżności Bedrock (30 równoczesnych zadań na konto) poprzez solidną kolejkę zadań i mechanizm odpytywania, zapewniając ciągłe i zgodne z przepisami przetwarzanie.

Poniżej znajduje się wizualna reprezentacja tego wyrafinowanego procesu pozyskiwania:

Rysunek 1: Potok pozyskiwania wideo przedstawiający przepływ danych od przechowywania wideo w S3, przez Nova Multimodal Embeddings i Nova Pro, do podwójnych indeksów OpenSearch

Wspieranie Różnorodnych Możliwości Wyszukiwania Wideo

Architektura wyszukiwania została zaprojektowana z myślą o wszechstronności, oferując wiele trybów odkrywania treści:

Wyszukiwanie tekst-do-wideo: Użytkownicy mogą wprowadzać zapytania w języku naturalnym, takie jak 'ujęcie z drona tętniącego życiem miasta nocą' lub 'zbliżenie szefa kuchni przygotowującego wykwintny posiłek'. System konwertuje te zapytania na osadzenia, a następnie wykorzystuje indeks OpenSearch k-NN do znalezienia segmentów wideo lub całych filmów, które semantycznie pasują do opisu, nawet jeśli dokładne słowa nie są obecne w żadnych metadanych. Jest to idealne rozwiązanie do intuicyjnego odkrywania treści i tworzenia scenorysów.
Wyszukiwanie wideo-do-wideo: W scenariuszach, gdy użytkownik posiada klip wideo i chce znaleźć podobne treści, ten tryb jest doskonały. Poprzez bezpośrednie porównanie osadzeń wideo wejściowego z tymi znajdującymi się w indeksie OpenSearch k-NN, system może zidentyfikować wizualnie i dźwiękowo analogiczne treści. Jest to nieocenione do identyfikowania materiałów B-roll, zapewniania spójności treści lub odkrywania dzieł pochodnych.
Wyszukiwanie hybrydowe: Łącząc najlepsze z obu światów, wyszukiwanie hybrydowe integruje podobieństwo wektorowe z tradycyjnym dopasowywaniem słów kluczowych. Proponowane rozwiązanie wykorzystuje podejście ważone (np. 70% podobieństwa wektorowego i 30% dopasowania słów kluczowych). Zapewnia to wysoką dokładność i trafność, pozwalając precyzyjnym metadanym kierować wyszukiwaniem, podczas gdy zrozumienie semantyczne zapewnia szerokie dopasowania kontekstowe. To podejście jest szczególnie skuteczne w przypadku złożonych zapytań, które czerpią korzyści zarówno z precyzyjnych tagów, jak i zrozumienia koncepcyjnego.

Rysunek 2: Architektura wyszukiwania wideo demonstrująca trzy tryby wyszukiwania – tekst-do-wideo, wideo-do-wideo oraz wyszukiwanie hybrydowe łączące k-NN i BM25

Ekonomiczne Wdrożenie i Wymagania Wstępne

Wdrożenie tak zaawansowanego jeziora danych AI wymaga starannego rozważenia infrastruktury i kosztów, które AWS zoptymalizowało pod kątem efektywności. Całkowity koszt przetwarzania obszernych zbiorów danych, około 8 480 godzin treści wideo, wyniósł szacunkowo 27 328 USD w pierwszym roku (z OpenSearch na żądanie) lub 23 632 USD (z instancjami zarezerwowanymi OpenSearch Service).

Podział kosztów pozyskiwania podkreśla kluczowe czynniki:

Obliczenia Amazon EC2: 421 USD (4x instancje spot c7i.48xlarge przez 41 godzin)
Amazon Bedrock Nova Multimodal Embeddings: 17 096 USD (30,5 mln sekund po 0,00056 USD/sekundę w cenie pakietowej)
Tagowanie Nova Pro: 571 USD (792 tys. filmów, średnio ok. 600 tokenów/film)
Amazon OpenSearch Service: 9 240 USD (rocznie na żądanie) lub 5 544 USD (rocznie zarezerwowane)

Wymagania Wstępne do Implementacji: Aby replikować lub adaptować to rozwiązanie, będziesz potrzebować:

Konta AWS z dostępem do Amazon Bedrock w regionie us-east-1.
Pythona 3.9 lub nowszego.
Interfejsu wiersza poleceń AWS (AWS CLI) skonfigurowanego z odpowiednimi poświadczeniami.
Domeny Amazon OpenSearch Service (zalecana r6g.large lub większa), w wersji 2.11 lub nowszej, z włączoną wtyczką k-NN.
Bucketa Amazon S3 do przechowywania wideo i wyników osadzania.
Uprawnień AWS Identity and Access Management (IAM) dla Amazon Bedrock, OpenSearch Service i Amazon S3.

Rozwiązanie wykorzystuje określone usługi i modele AWS:

Amazon Bedrock z amazon.nova-2-multimodal-embeddings-v1:0 do osadzania.
Amazon Bedrock z us.amazon.nova-pro-v1:0 lub us.amazon.nova-2-lite-v1:0 do tagowania.
Amazon OpenSearch Service 2.11+ z wtyczką k-NN.
Amazon S3 do przechowywania.

Implementacja Multimodalnego Rozwiązania Wyszukiwania Wideo

Rozpoczęcie pracy z tą architekturą wymaga ustrukturyzowanego podejścia do konfiguracji środowiska AWS. Pierwszym kluczowym krokiem jest ustalenie niezbędnych uprawnień.

Krok 1: Tworzenie Ról i Polityk IAM

Musisz utworzyć rolę IAM, która nada Twojej aplikacji lub usłudze uprawnienia do interakcji z różnymi komponentami AWS. Ta rola musi zawierać uprawnienia do wywoływania modeli Amazon Bedrock (zarówno do generowania osadzeń, jak i tagowania), zapisywania danych do indeksów OpenSearch oraz wykonywania operacji odczytu/zapisu na bucketach Amazon S3, gdzie znajdują się Twoje treści wideo i przetworzone wyniki.

Oto przykład podstawowej struktury polityki IAM:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Ta polityka nadaje określone uprawnienia niezbędne do działania potoku. Pamiętaj, aby zastąpić symbole zastępcze, takie jak your-video-bucket i your-opensearch-domain, nazwami Twoich rzeczywistych zasobów. Po konfiguracji IAM, należy przejść do konfiguracji bucketów S3, ustawienia domeny OpenSearch Service z włączoną wtyczką k-NN oraz opracowania logiki orkiestracji, która wykorzystuje API Bedrock do pozyskiwania. Ta solidna struktura zapewnia, że firmy medialne i rozrywkowe mogą efektywnie zarządzać, odkrywać i monetyzować swoje stale rosnące biblioteki treści, co stanowi znaczący krok naprzód w inteligencji treści. To kompleksowe rozwiązanie jest przykładem tego, jak nowoczesne możliwości AI, zwłaszcza w zakresie multimodalnego rozumienia, redefiniują standardy branżowe dla zarządzania treścią i dostępności. Jest to świadectwo mocy integracji zaawansowanych modeli AI ze skalowalną infrastrukturą chmurową w celu rozwiązywania rzeczywistych wyzwań AI dla Przedsiębiorstw, sprzyjając postępom podobnym do tych obserwowanych w agentowych przepływach pracy AI.

Źródło oryginalne

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Często zadawane pytania

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij