Merevolusi Pencarian Video dengan Embeddings Multimodal
Industri media dan hiburan dibanjiri lautan konten video yang luas. Dari rekaman arsip hingga unggahan harian, volume yang sangat besar membuat metode penemuan konten tradisional — penandaan manual dan pencarian berbasis kata kunci — semakin tidak efisien dan seringkali tidak akurat. Pendekatan lama ini kesulitan menangkap kekayaan penuh dan konteks bernuansa yang tertanam dalam video, yang menyebabkan hilangnya peluang untuk penggunaan kembali konten, produksi yang lebih cepat, dan pengalaman pemirsa yang ditingkatkan.
Masuki era embeddings multimodal. AWS sedang merintis solusi yang melampaui batasan ini, memungkinkan kemampuan pencarian semantik di seluruh kumpulan data video yang sangat besar. Dengan memanfaatkan kekuatan model Amazon Nova dan Amazon OpenSearch Service, pembuat dan distributor konten dapat melampaui kata kunci dangkal untuk benar-benar memahami dan mengakses perpustakaan media mereka. Pendekatan inovatif ini memungkinkan kueri bahasa alami untuk menyelami kedalaman informasi visual dan auditori, membawa presisi yang belum pernah terjadi sebelumnya pada penemuan konten.
Menunjukkan kemampuan ini pada skala yang mengesankan, AWS telah memproses 792.270 video dari AWS Open Data Registry, yang mencakup 8.480 jam konten video yang mencengangkan. Upaya ambisius ini, yang membutuhkan waktu hanya 41 jam untuk memproses lebih dari 30,5 juta detik video, menyoroti skalabilitas dan efisiensi pendekatan berbasis AI ini. Biaya tahun pertama, termasuk penyerapan satu kali dan biaya tahunan OpenSearch Service, diperkirakan sangat kompetitif, yaitu $23.632 (dengan Instans Terpesan OpenSearch Service) hingga $27.328 (dengan sesuai permintaan). Solusi semacam itu secara fundamental mengubah cara perusahaan media berinteraksi dengan aset digital mereka, membuka jalan baru untuk monetisasi konten dan alur kerja produksi. Pergeseran paradigma menuju pemahaman semantik ini adalah perkembangan penting untuk AI Perusahaan di bidang media.
Memahami Arsitektur AI Data Lake Multimodal yang Skalabel
Intinya, sistem pencarian video multimodal yang kuat ini dibangun di atas dua alur kerja yang saling terhubung: penyerapan video dan pencarian. Komponen-komponen ini terintegrasi dengan mulus untuk menciptakan AI data lake yang memahami dan membuat detail rumit konten video dapat dicari.
Pipeline Penyerapan Video
Pipeline penyerapan direkayasa untuk pemrosesan paralel dan efisiensi. Ia memanfaatkan empat instans Amazon EC2 c7i.48xlarge, mengorkestrasi hingga 600 pekerja paralel untuk mencapai tingkat pemrosesan 19.400 video per jam. Video yang awalnya diunggah ke Amazon S3 kemudian diproses oleh API asinkron Amazon Nova Multimodal Embeddings. API ini secara cerdas membagi video menjadi potongan optimal 15 detik — keseimbangan antara menangkap perubahan adegan yang signifikan dan mengelola volume embeddings yang dihasilkan. Setiap segmen kemudian diubah menjadi embedding berdimensi 1024, yang merepresentasikan fitur audio-visual gabungannya. Meskipun embeddings berdimensi 3072 menawarkan fidelitas yang lebih tinggi, opsi berdimensi 1024 memberikan penghematan biaya penyimpanan 3x dengan dampak minimal pada akurasi untuk aplikasi ini, menjadikannya pilihan pragmatis untuk skala.
Untuk lebih meningkatkan kemampuan pencarian, Amazon Nova Pro (atau Nova 2 Lite yang lebih baru dan lebih hemat biaya) digunakan untuk menghasilkan 10-15 tag deskriptif per video dari taksonomi yang telah ditentukan. Pendekatan ganda ini memastikan bahwa konten dapat ditemukan melalui kesamaan semantik dan pencocokan kata kunci tradisional. Embeddings ini disimpan dalam indeks k-NN OpenSearch, dioptimalkan untuk pencarian kesamaan vektor, sementara tag deskriptif diindeks dalam indeks teks terpisah. Pemisahan ini memungkinkan kueri yang fleksibel dan efisien. Pipeline mengelola batas konkurensi Bedrock (30 pekerjaan bersamaan per akun) melalui antrean pekerjaan yang kuat dan mekanisme polling, memastikan pemrosesan yang berkelanjutan dan sesuai.
Di bawah ini adalah representasi visual dari proses penyerapan yang canggih ini:

Gambar 1: Pipeline penyerapan video menunjukkan aliran dari penyimpanan video S3 melalui Nova Multimodal Embeddings dan Nova Pro ke indeks OpenSearch ganda
Memberdayakan Berbagai Kemampuan Pencarian Video
Arsitektur pencarian dirancang untuk keserbagunaan, menawarkan berbagai mode penemuan konten:
-
Pencarian Teks-ke-Video: Pengguna dapat memasukkan kueri bahasa alami, seperti "rekaman drone kota yang ramai di malam hari" atau "close-up koki menyiapkan hidangan mewah." Sistem mengubah kueri ini menjadi embeddings, lalu memanfaatkan indeks k-NN OpenSearch untuk menemukan segmen video atau seluruh video yang secara semantik cocok dengan deskripsi, meskipun kata-kata yang tepat tidak ada dalam metadata apa pun. Ini ideal untuk penemuan konten intuitif dan storyboarding.
-
Pencarian Video-ke-Video: Untuk skenario di mana pengguna memiliki klip video dan ingin menemukan konten serupa, mode ini unggul. Dengan membandingkan embeddings video masukan secara langsung dengan yang ada di indeks k-NN OpenSearch, sistem dapat mengidentifikasi konten yang secara visual dan auditori analog. Ini sangat berharga untuk mengidentifikasi rekaman B-roll, memastikan konsistensi konten, atau menemukan karya turunan.
-
Pencarian Hibrida: Menggabungkan yang terbaik dari kedua dunia, pencarian hibrida mengintegrasikan kesamaan vektor dengan pencocokan kata kunci tradisional. Solusi yang diusulkan menggunakan pendekatan berbobot (misalnya, 70% kesamaan vektor dan 30% pencocokan kata kunci). Ini memastikan akurasi dan relevansi tinggi, memungkinkan metadata spesifik untuk memandu pencarian sementara pemahaman semantik memberikan kecocokan kontekstual yang luas. Pendekatan ini sangat efektif untuk kueri kompleks yang mendapat manfaat dari tag yang tepat dan pemahaman konseptual.

Gambar 2: Arsitektur pencarian video yang menunjukkan tiga mode pencarian – teks-ke-video, video-ke-video, dan pencarian hibrida yang menggabungkan k-NN dan BM25
Penyebaran Hemat Biaya dan Prasyarat
Menyebarkan AI data lake yang canggih seperti ini membutuhkan pertimbangan cermat terhadap infrastruktur dan biaya, yang telah dioptimalkan AWS untuk efisiensi. Total biaya untuk memproses kumpulan data yang luas, sekitar 8.480 jam konten video, mencapai perkiraan total tahun pertama sebesar $27.328 (dengan OpenSearch sesuai permintaan) atau $23.632 (dengan Instans Terpesan OpenSearch Service).
Rincian penyerapan menyoroti pendorong biaya utama:
- Komputasi Amazon EC2: $421 (4x instans spot c7i.48xlarge selama 41 jam)
- Embeddings Multimodal Amazon Bedrock Nova: $17.096 (30,5 juta detik dengan harga batch $0,00056/detik)
- Penandaan Nova Pro: $571 (792 ribu video, rata-rata sekitar 600 token/video)
- Amazon OpenSearch Service: $9.240 (tahunan sesuai permintaan) atau $5.544 (tahunan Terpesan)
Prasyarat untuk Implementasi: Untuk mereplikasi atau mengadaptasi solusi ini, Anda akan membutuhkan:
- Akun AWS dengan akses ke Amazon Bedrock di
us-east-1. - Python 3.9 atau lebih baru.
- AWS Command Line Interface (AWS CLI) yang dikonfigurasi dengan kredensial yang sesuai.
- Domain Amazon OpenSearch Service (disarankan r6g.large atau lebih besar), versi 2.11 atau lebih baru, dengan plugin k-NN diaktifkan.
- Bucket Amazon S3 untuk penyimpanan video dan keluaran embedding.
- Izin AWS Identity and Access Management (IAM) untuk Amazon Bedrock, OpenSearch Service, dan Amazon S3.
Solusi ini memanfaatkan layanan dan model AWS tertentu:
- Amazon Bedrock dengan
amazon.nova-2-multimodal-embeddings-v1:0untuk embeddings. - Amazon Bedrock dengan
us.amazon.nova-pro-v1:0atauus.amazon.nova-2-lite-v1:0untuk penandaan. - Amazon OpenSearch Service 2.11+ dengan plugin k-NN.
- Amazon S3 untuk penyimpanan.
Mengimplementasikan Solusi Pencarian Video Multimodal
Memulai arsitektur ini melibatkan pendekatan terstruktur untuk menyiapkan lingkungan AWS Anda. Langkah penting pertama adalah menetapkan izin yang diperlukan.
Langkah 1: Membuat Peran dan Kebijakan IAM
Anda perlu membuat peran IAM yang memberikan wewenang kepada aplikasi atau layanan Anda untuk berinteraksi dengan berbagai komponen AWS. Peran ini harus mencakup izin untuk memanggil model Amazon Bedrock (untuk pembuatan embedding dan penandaan), menulis data ke indeks OpenSearch, dan melakukan operasi baca/tulis pada bucket Amazon S3 tempat konten video dan output yang diproses Anda berada.
Berikut adalah contoh struktur kebijakan IAM dasar:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Kebijakan ini memberikan izin khusus yang penting untuk operasi pipeline. Ingatlah untuk mengganti placeholder seperti your-video-bucket dan your-opensearch-domain dengan nama sumber daya Anda yang sebenarnya. Setelah pengaturan IAM, Anda akan melanjutkan dengan mengonfigurasi bucket S3 Anda, menyiapkan domain OpenSearch Service Anda dengan k-NN diaktifkan, dan mengembangkan logika orkestrasi yang memanfaatkan API Bedrock untuk penyerapan. Kerangka kerja yang kuat ini memastikan bahwa perusahaan media dan hiburan dapat secara efisien mengelola, menemukan, dan memonetisasi perpustakaan konten mereka yang terus berkembang, menandai lompatan signifikan dalam intelijen konten. Solusi komprehensif ini adalah contoh bagaimana kemampuan AI modern, khususnya dalam pemahaman multimodal, mendefinisikan ulang standar industri untuk manajemen dan aksesibilitas konten. Ini adalah bukti kekuatan mengintegrasikan model AI canggih dengan infrastruktur cloud yang skalabel untuk memecahkan tantangan AI Perusahaan dunia nyata, mendorong kemajuan yang serupa dengan yang terlihat dalam alur kerja AI Agentic.
Pertanyaan yang Sering Diajukan
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Tetap Update
Dapatkan berita AI terbaru di inbox Anda.
