Penskalaan Embeddings Multimodal: AI Data Lake untuk Media & Hiburan

Merevolusi Pencarian Video dengan Embeddings Multimodal

Industri media dan hiburan dibanjiri lautan konten video yang luas. Dari rekaman arsip hingga unggahan harian, volume yang sangat besar membuat metode penemuan konten tradisional — penandaan manual dan pencarian berbasis kata kunci — semakin tidak efisien dan seringkali tidak akurat. Pendekatan lama ini kesulitan menangkap kekayaan penuh dan konteks bernuansa yang tertanam dalam video, yang menyebabkan hilangnya peluang untuk penggunaan kembali konten, produksi yang lebih cepat, dan pengalaman pemirsa yang ditingkatkan.

Masuki era embeddings multimodal. AWS sedang merintis solusi yang melampaui batasan ini, memungkinkan kemampuan pencarian semantik di seluruh kumpulan data video yang sangat besar. Dengan memanfaatkan kekuatan model Amazon Nova dan Amazon OpenSearch Service, pembuat dan distributor konten dapat melampaui kata kunci dangkal untuk benar-benar memahami dan mengakses perpustakaan media mereka. Pendekatan inovatif ini memungkinkan kueri bahasa alami untuk menyelami kedalaman informasi visual dan auditori, membawa presisi yang belum pernah terjadi sebelumnya pada penemuan konten.

Menunjukkan kemampuan ini pada skala yang mengesankan, AWS telah memproses 792.270 video dari AWS Open Data Registry, yang mencakup 8.480 jam konten video yang mencengangkan. Upaya ambisius ini, yang membutuhkan waktu hanya 41 jam untuk memproses lebih dari 30,5 juta detik video, menyoroti skalabilitas dan efisiensi pendekatan berbasis AI ini. Biaya tahun pertama, termasuk penyerapan satu kali dan biaya tahunan OpenSearch Service, diperkirakan sangat kompetitif, yaitu $23.632 (dengan Instans Terpesan OpenSearch Service) hingga $27.328 (dengan sesuai permintaan). Solusi semacam itu secara fundamental mengubah cara perusahaan media berinteraksi dengan aset digital mereka, membuka jalan baru untuk monetisasi konten dan alur kerja produksi. Pergeseran paradigma menuju pemahaman semantik ini adalah perkembangan penting untuk AI Perusahaan di bidang media.

Memahami Arsitektur AI Data Lake Multimodal yang Skalabel

Intinya, sistem pencarian video multimodal yang kuat ini dibangun di atas dua alur kerja yang saling terhubung: penyerapan video dan pencarian. Komponen-komponen ini terintegrasi dengan mulus untuk menciptakan AI data lake yang memahami dan membuat detail rumit konten video dapat dicari.

Pipeline Penyerapan Video

Pipeline penyerapan direkayasa untuk pemrosesan paralel dan efisiensi. Ia memanfaatkan empat instans Amazon EC2 c7i.48xlarge, mengorkestrasi hingga 600 pekerja paralel untuk mencapai tingkat pemrosesan 19.400 video per jam. Video yang awalnya diunggah ke Amazon S3 kemudian diproses oleh API asinkron Amazon Nova Multimodal Embeddings. API ini secara cerdas membagi video menjadi potongan optimal 15 detik — keseimbangan antara menangkap perubahan adegan yang signifikan dan mengelola volume embeddings yang dihasilkan. Setiap segmen kemudian diubah menjadi embedding berdimensi 1024, yang merepresentasikan fitur audio-visual gabungannya. Meskipun embeddings berdimensi 3072 menawarkan fidelitas yang lebih tinggi, opsi berdimensi 1024 memberikan penghematan biaya penyimpanan 3x dengan dampak minimal pada akurasi untuk aplikasi ini, menjadikannya pilihan pragmatis untuk skala.

Untuk lebih meningkatkan kemampuan pencarian, Amazon Nova Pro (atau Nova 2 Lite yang lebih baru dan lebih hemat biaya) digunakan untuk menghasilkan 10-15 tag deskriptif per video dari taksonomi yang telah ditentukan. Pendekatan ganda ini memastikan bahwa konten dapat ditemukan melalui kesamaan semantik dan pencocokan kata kunci tradisional. Embeddings ini disimpan dalam indeks k-NN OpenSearch, dioptimalkan untuk pencarian kesamaan vektor, sementara tag deskriptif diindeks dalam indeks teks terpisah. Pemisahan ini memungkinkan kueri yang fleksibel dan efisien. Pipeline mengelola batas konkurensi Bedrock (30 pekerjaan bersamaan per akun) melalui antrean pekerjaan yang kuat dan mekanisme polling, memastikan pemrosesan yang berkelanjutan dan sesuai.

Di bawah ini adalah representasi visual dari proses penyerapan yang canggih ini:

Gambar 1: Pipeline penyerapan video menunjukkan aliran dari penyimpanan video S3 melalui Nova Multimodal Embeddings dan Nova Pro ke indeks OpenSearch ganda

Memberdayakan Berbagai Kemampuan Pencarian Video

Arsitektur pencarian dirancang untuk keserbagunaan, menawarkan berbagai mode penemuan konten:

Pencarian Teks-ke-Video: Pengguna dapat memasukkan kueri bahasa alami, seperti "rekaman drone kota yang ramai di malam hari" atau "close-up koki menyiapkan hidangan mewah." Sistem mengubah kueri ini menjadi embeddings, lalu memanfaatkan indeks k-NN OpenSearch untuk menemukan segmen video atau seluruh video yang secara semantik cocok dengan deskripsi, meskipun kata-kata yang tepat tidak ada dalam metadata apa pun. Ini ideal untuk penemuan konten intuitif dan storyboarding.
Pencarian Video-ke-Video: Untuk skenario di mana pengguna memiliki klip video dan ingin menemukan konten serupa, mode ini unggul. Dengan membandingkan embeddings video masukan secara langsung dengan yang ada di indeks k-NN OpenSearch, sistem dapat mengidentifikasi konten yang secara visual dan auditori analog. Ini sangat berharga untuk mengidentifikasi rekaman B-roll, memastikan konsistensi konten, atau menemukan karya turunan.
Pencarian Hibrida: Menggabungkan yang terbaik dari kedua dunia, pencarian hibrida mengintegrasikan kesamaan vektor dengan pencocokan kata kunci tradisional. Solusi yang diusulkan menggunakan pendekatan berbobot (misalnya, 70% kesamaan vektor dan 30% pencocokan kata kunci). Ini memastikan akurasi dan relevansi tinggi, memungkinkan metadata spesifik untuk memandu pencarian sementara pemahaman semantik memberikan kecocokan kontekstual yang luas. Pendekatan ini sangat efektif untuk kueri kompleks yang mendapat manfaat dari tag yang tepat dan pemahaman konseptual.

Gambar 2: Arsitektur pencarian video yang menunjukkan tiga mode pencarian – teks-ke-video, video-ke-video, dan pencarian hibrida yang menggabungkan k-NN dan BM25

Penyebaran Hemat Biaya dan Prasyarat

Menyebarkan AI data lake yang canggih seperti ini membutuhkan pertimbangan cermat terhadap infrastruktur dan biaya, yang telah dioptimalkan AWS untuk efisiensi. Total biaya untuk memproses kumpulan data yang luas, sekitar 8.480 jam konten video, mencapai perkiraan total tahun pertama sebesar $27.328 (dengan OpenSearch sesuai permintaan) atau $23.632 (dengan Instans Terpesan OpenSearch Service).

Rincian penyerapan menyoroti pendorong biaya utama:

Komputasi Amazon EC2: $421 (4x instans spot c7i.48xlarge selama 41 jam)
Embeddings Multimodal Amazon Bedrock Nova: $17.096 (30,5 juta detik dengan harga batch $0,00056/detik)
Penandaan Nova Pro: $571 (792 ribu video, rata-rata sekitar 600 token/video)
Amazon OpenSearch Service: $9.240 (tahunan sesuai permintaan) atau $5.544 (tahunan Terpesan)

Prasyarat untuk Implementasi: Untuk mereplikasi atau mengadaptasi solusi ini, Anda akan membutuhkan:

Akun AWS dengan akses ke Amazon Bedrock di us-east-1.
Python 3.9 atau lebih baru.
AWS Command Line Interface (AWS CLI) yang dikonfigurasi dengan kredensial yang sesuai.
Domain Amazon OpenSearch Service (disarankan r6g.large atau lebih besar), versi 2.11 atau lebih baru, dengan plugin k-NN diaktifkan.
Bucket Amazon S3 untuk penyimpanan video dan keluaran embedding.
Izin AWS Identity and Access Management (IAM) untuk Amazon Bedrock, OpenSearch Service, dan Amazon S3.

Solusi ini memanfaatkan layanan dan model AWS tertentu:

Amazon Bedrock dengan amazon.nova-2-multimodal-embeddings-v1:0 untuk embeddings.
Amazon Bedrock dengan us.amazon.nova-pro-v1:0 atau us.amazon.nova-2-lite-v1:0 untuk penandaan.
Amazon OpenSearch Service 2.11+ dengan plugin k-NN.
Amazon S3 untuk penyimpanan.

Mengimplementasikan Solusi Pencarian Video Multimodal

Memulai arsitektur ini melibatkan pendekatan terstruktur untuk menyiapkan lingkungan AWS Anda. Langkah penting pertama adalah menetapkan izin yang diperlukan.

Langkah 1: Membuat Peran dan Kebijakan IAM

Anda perlu membuat peran IAM yang memberikan wewenang kepada aplikasi atau layanan Anda untuk berinteraksi dengan berbagai komponen AWS. Peran ini harus mencakup izin untuk memanggil model Amazon Bedrock (untuk pembuatan embedding dan penandaan), menulis data ke indeks OpenSearch, dan melakukan operasi baca/tulis pada bucket Amazon S3 tempat konten video dan output yang diproses Anda berada.

Berikut adalah contoh struktur kebijakan IAM dasar:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Kebijakan ini memberikan izin khusus yang penting untuk operasi pipeline. Ingatlah untuk mengganti placeholder seperti your-video-bucket dan your-opensearch-domain dengan nama sumber daya Anda yang sebenarnya. Setelah pengaturan IAM, Anda akan melanjutkan dengan mengonfigurasi bucket S3 Anda, menyiapkan domain OpenSearch Service Anda dengan k-NN diaktifkan, dan mengembangkan logika orkestrasi yang memanfaatkan API Bedrock untuk penyerapan. Kerangka kerja yang kuat ini memastikan bahwa perusahaan media dan hiburan dapat secara efisien mengelola, menemukan, dan memonetisasi perpustakaan konten mereka yang terus berkembang, menandai lompatan signifikan dalam intelijen konten. Solusi komprehensif ini adalah contoh bagaimana kemampuan AI modern, khususnya dalam pemahaman multimodal, mendefinisikan ulang standar industri untuk manajemen dan aksesibilitas konten. Ini adalah bukti kekuatan mengintegrasikan model AI canggih dengan infrastruktur cloud yang skalabel untuk memecahkan tantangan AI Perusahaan dunia nyata, mendorong kemajuan yang serupa dengan yang terlihat dalam alur kerja AI Agentic.

Sumber asli

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Pertanyaan yang Sering Diajukan

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.