Çok Modlu Gömme Modelleriyle Video Aramasını Devrim Niteliğinde Değiştirmek
Medya ve eğlence sektörü, uçsuz bucaksız video içerik denizleriyle dolup taşıyor. Arşiv görüntülerinden günlük yüklere kadar, muazzam hacim, geleneksel içerik keşif yöntemlerini — manuel etiketleme ve anahtar kelime tabanlı aramaları — giderek daha verimsiz ve çoğu zaman yanlış hale getiriyor. Bu eski yaklaşımlar, videonun içine yerleşmiş tüm zenginliği ve ince bağlamı yakalamakta zorlanarak, içerik yeniden kullanımında, daha hızlı üretimde ve geliştirilmiş izleyici deneyimlerinde kaçırılan fırsatlara yol açıyor.
Çok modlu gömme modelleri dönemi başlıyor. AWS, bu sınırlamaları aşan, devasa video veri kümelerinde semantik arama yetenekleri sağlayan bir çözüme öncülük ediyor. Amazon Nova modellerinin ve Amazon OpenSearch Service'in gücünden yararlanarak, içerik oluşturucuları ve distribütörler, yüzeysel anahtar kelimelerin ötesine geçerek medya kütüphanelerini gerçekten anlayabilir ve bunlara erişebilirler. Bu yenilikçi yaklaşım, doğal dil sorgularının görsel ve işitsel bilginin derinliklerini araştırmasına olanak tanıyarak içerik keşfine eşi benzeri görülmemiş bir hassasiyet getiriyor.
Bu yeteneği etkileyici bir ölçekte sergileyen AWS, AWS Açık Veri Kayıt Defteri'nden 792.270 videoyu işledi ve bu da şaşırtıcı bir şekilde 8.480 saatlik video içeriğini kapsıyor. 30,5 milyon saniyenin üzerindeki videoyu sadece 41 saatte işlemeyi başaran bu iddialı çalışma, bu yapay zeka odaklı yaklaşımın ölçeklenebilirliğini ve verimliliğini vurgulamaktadır. Tek seferlik alım ve yıllık OpenSearch Service dahil olmak üzere ilk yıl maliyeti, oldukça rekabetçi olan 23.632 ABD Doları (OpenSearch Service Ayrılmış Örnekler ile) ila 27.328 ABD Doları (isteğe bağlı ile) arasında tahmin edilmiştir. Böyle bir çözüm, medya şirketlerinin dijital varlıklarıyla etkileşim şeklini temelden dönüştürerek, içerik para kazanma ve üretim iş akışları için yeni yollar açmaktadır. Semantik anlayışa yönelik bu paradigma değişimi, medyada Kurumsal Yapay Zeka için kritik bir gelişmedir.
Ölçeklenebilir Çok Modlu Yapay Zeka Veri Gölü Mimarisi Anlayışı
Özünde, bu güçlü çok modlu video arama sistemi iki birbiriyle bağlantılı iş akışı üzerine kuruludur: video alımı ve arama. Bu bileşenler, video içeriğinin karmaşık detaylarını anlayan ve aranabilir hale getiren bir yapay zeka veri gölü oluşturmak için sorunsuz bir şekilde entegre olur.
Video Alım Hattı
Alım hattı, paralel işleme ve verimlilik için tasarlanmıştır. Saatte 19.400 video işleme hızına ulaşmak için 600 paralel çalışanını koordine eden dört adet Amazon EC2 c7i.48xlarge örneği kullanır. Başlangıçta Amazon S3'e yüklenen videolar daha sonra Amazon Nova Multimodal Embeddings asenkron API'si tarafından işlenir. Bu API, videoları önemli sahne değişikliklerini yakalamak ve oluşturulan gömme modellerinin hacmini yönetmek arasında bir denge sağlayarak, optimum 15 saniyelik parçalara akıllıca böler. Her segment daha sonra, birleşik görsel-işitsel özelliklerini temsil eden 1024 boyutlu bir gömme modeline dönüştürülür. 3072 boyutlu gömme modelleri daha yüksek doğruluk sunarken, 1024 boyutlu seçenek bu uygulama için doğruluk üzerinde minimum etkiyle 3 kat depolama maliyeti tasarrufu sağlayarak ölçek için pratik bir seçim haline gelir.
Aramayı daha da geliştirmek için, önceden tanımlanmış bir taksonomiden video başına 10-15 açıklayıcı etiket oluşturmak üzere Amazon Nova Pro (veya daha yeni, daha uygun maliyetli Nova 2 Lite) kullanılır. Bu ikili yaklaşım, içeriğin hem semantik benzerlik hem de geleneksel anahtar kelime eşleştirmesi yoluyla keşfedilebilir olmasını sağlar. Bu gömme modelleri, vektör benzerliği araması için optimize edilmiş bir OpenSearch k-NN dizininde depolanırken, açıklayıcı etiketler ayrı bir metin dizininde indekslenir. Bu ayrım, esnek ve verimli sorgulamaya olanak tanır. Boru hattı, Bedrock'un eşzamanlılık limitlerini (hesap başına 30 eşzamanlı iş) sağlam bir iş kuyruğu ve yoklama mekanizması aracılığıyla yönetir ve sürekli ve uyumlu işleme sağlar.
Bu gelişmiş alım sürecinin görsel bir temsili aşağıdadır:

Şekil 1: S3 video depolamasından Nova Multimodal Embeddings ve Nova Pro aracılığıyla ikili OpenSearch dizinlerine akışı gösteren video alım hattı
Çeşitli Video Arama Yeteneklerini Güçlendirmek
Arama mimarisi, çok yönlülük için tasarlanmış olup, birden fazla içerik keşfi modu sunar:
-
Metinden Videoya Arama: Kullanıcılar "gece hareketli bir şehrin drone çekimi" veya "gurme bir yemek hazırlayan şefin yakın çekimi" gibi doğal dil sorguları girebilirler. Sistem bu sorguları gömme modellerine dönüştürür, ardından OpenSearch k-NN dizinini kullanarak açıklamaya semantik olarak uyan video segmentlerini veya tüm videoları bulur, hatta tam kelimeler herhangi bir meta veride mevcut olmasa bile. Bu, sezgisel içerik keşfi ve hikaye tahtası oluşturma için idealdir.
-
Videodan Videoya Arama: Bir kullanıcının bir video klibi olduğu ve benzer içerik bulmak istediği senaryolarda, bu mod üstündür. Giriş videosunun gömme modellerini OpenSearch k-NN dizinindekilerle doğrudan karşılaştırarak, sistem görsel ve işitsel olarak benzer içeriği tanımlayabilir. Bu, B-roll görüntülerini belirlemek, içerik tutarlılığını sağlamak veya türetilmiş eserleri keşfetmek için paha biçilmezdir.
-
Hibrit Arama: Her iki dünyanın da en iyilerini birleştiren hibrit arama, vektör benzerliğini geleneksel anahtar kelime eşleştirmesiyle entegre eder. Önerilen çözüm ağırlıklı bir yaklaşım kullanır (örneğin, %70 vektör benzerliği ve %30 anahtar kelime eşleştirmesi). Bu, yüksek doğruluk ve alaka düzeyi sağlar, belirli meta verilerin aramayı yönlendirmesine izin verirken semantik anlama geniş bağlamsal eşleşmeler sağlar. Bu yaklaşım, hem hassas etiketlerden hem de kavramsal anlayıştan faydalanan karmaşık sorgular için özellikle etkilidir.

Şekil 2: Üç arama modunu (metinden videoya, videodan videoya ve k-NN ile BM25'i birleştiren hibrit arama) gösteren video arama mimarisi
Maliyet Etkin Dağıtım ve Önkoşullar
Böylesine sofistike bir yapay zeka veri gölü dağıtmak, AWS'nin verimlilik için optimize ettiği altyapı ve maliyetlerin dikkatli bir şekilde değerlendirilmesini gerektirir. Yaklaşık 8.480 saatlik video içeriği olan kapsamlı veri kümelerini işlemek için toplam maliyet, ilk yıl için tahmini 27.328 ABD Doları (isteğe bağlı OpenSearch ile) veya 23.632 ABD Doları (OpenSearch Service Ayrılmış Örnekler ile) olarak gerçekleşti.
Alım dökümü, temel maliyet faktörlerini vurgular:
- Amazon EC2 bilgi işlem: 421 ABD Doları (41 saat için 4x c7i.48xlarge spot örnekleri)
- Amazon Bedrock Nova Multimodal Embeddings: 17.096 ABD Doları (30,5 milyon saniye, 0,00056 ABD Doları/saniye toplu fiyatlandırma ile)
- Nova Pro etiketleme: 571 ABD Doları (792 bin video, yaklaşık ortalama 600 belirteç/video)
- Amazon OpenSearch Service: 9.240 ABD Doları (isteğe bağlı yıllık) veya 5.544 ABD Doları (Ayrılmış yıllık)
Uygulama İçin Önkoşullar: Bu çözümü çoğaltmak veya uyarlamak için şunlara ihtiyacınız olacak:
us-east-1bölgesinde Amazon Bedrock erişimi olan bir AWS hesabı.- Python 3.9 veya sonrası.
- Uygun kimlik bilgileriyle yapılandırılmış AWS Komut Satırı Arabirimi (AWS CLI).
- k-NN eklentisi etkinleştirilmiş, 2.11 veya üzeri sürüme sahip bir Amazon OpenSearch Service alanı (r6g.large veya daha büyüğü önerilir).
- Video depolama ve gömme çıktıları için bir Amazon S3 depolama alanı (bucket).
- Amazon Bedrock, OpenSearch Service ve Amazon S3 için AWS Kimlik ve Erişim Yönetimi (IAM) izinleri.
Çözüm, belirli AWS hizmetlerini ve modellerini kullanır:
- Gömme modelleri için
amazon.nova-2-multimodal-embeddings-v1:0ile Amazon Bedrock. - Etiketleme için
us.amazon.nova-pro-v1:0veyaus.amazon.nova-2-lite-v1:0ile Amazon Bedrock. - k-NN eklentisiyle Amazon OpenSearch Service 2.11+.
- Depolama için Amazon S3.
Çok Modlu Video Arama Çözümünü Uygulamak
Bu mimariye başlamak, AWS ortamınızı kurmak için yapılandırılmış bir yaklaşım gerektirir. İlk önemli adım, gerekli izinleri oluşturmaktır.
Adım 1: IAM Rolleri ve Politikaları Oluşturma
Uygulamanıza veya hizmetinize çeşitli AWS bileşenleriyle etkileşim kurma yetkisi veren bir IAM rolü oluşturmanız gerekecektir. Bu rol, Amazon Bedrock modellerini (hem gömme oluşturma hem de etiketleme için) çağırma, OpenSearch dizinlerine veri yazma ve video içeriğinizin ve işlenmiş çıktılarınızın bulunduğu Amazon S3 depolama alanlarında okuma/yazma işlemleri gerçekleştirme izinlerini içermelidir.
İşte temel bir IAM politika yapısı örneği:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Bu politika, boru hattının çalışması için gerekli belirli izinleri verir. your-video-bucket ve your-opensearch-domain gibi yer tutucuları gerçek kaynak adlarınızla değiştirmeyi unutmayın. IAM kurulumunu takiben, S3 depolama alanlarınızı yapılandırmaya, OpenSearch Service alanınızı k-NN etkinleştirilmiş olarak kurmaya ve alım için Bedrock API'lerinden yararlanan düzenleme mantığını geliştirmeye devam edeceksiniz. Bu sağlam çerçeve, medya ve eğlence şirketlerinin sürekli büyüyen içerik kütüphanelerini verimli bir şekilde yönetebilmelerini, keşfedebilmelerini ve para kazanabilmelerini sağlayarak içerik zekasında önemli bir sıçrama kaydeder. Bu kapsamlı çözüm, özellikle çok modlu anlayıştaki modern yapay zeka yeteneklerinin, içerik yönetimi ve erişilebilirlik için endüstri standartlarını nasıl yeniden tanımladığının bir örneğidir. Gelişmiş yapay zeka modellerini ölçeklenebilir bulut altyapısıyla entegre etmenin, gerçek dünya Kurumsal Yapay Zeka zorluklarını çözmedeki gücünün bir kanıtıdır ve Agentic Yapay Zeka iş akışlarında görülenlere benzer gelişmeleri teşvik etmektedir.
Orijinal kaynak
https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/Sık Sorulan Sorular
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Güncel Kalın
En son yapay zeka haberlerini e-postanıza alın.
