Rewolucjonizowanie Wyszukiwania Wideo dzięki Osadzaniu Multimodalnemu
Branża mediów i rozrywki tonie w ogromnych oceanach treści wideo. Od archiwalnych materiałów po codzienne przesyłanie, sama objętość sprawia, że tradycyjne metody odkrywania treści — ręczne tagowanie i wyszukiwanie oparte na słowach kluczowych — stają się coraz bardziej nieefektywne i często niedokładne. Te tradycyjne podejścia nie są w stanie uchwycić pełnego bogactwa i subtelnego kontekstu osadzonego w wideo, co prowadzi do utraconych możliwości ponownego wykorzystania treści, szybszej produkcji i ulepszonych doświadczeń widza.
Wkraczamy w erę osadzania multimodalnego. AWS jest pionierem rozwiązania, które przekracza te ograniczenia, umożliwiając możliwości wyszukiwania semantycznego w kolosalnych zbiorach danych wideo. Wykorzystując moc modeli Amazon Nova i Amazon OpenSearch Service, twórcy i dystrybutorzy treści mogą wyjść poza powierzchowne słowa kluczowe, aby naprawdę zrozumieć i uzyskać dostęp do swoich bibliotek mediów. To innowacyjne podejście pozwala zapytaniom w języku naturalnym zgłębiać wizualne i słuchowe informacje, wprowadzając bezprecedensową precyzję w odkrywaniu treści.
Demonstrując tę zdolność na imponującą skalę, AWS przetworzyło 792 270 filmów z rejestru otwartych danych AWS, obejmujących zdumiewające 8 480 godzin treści wideo. To ambitne przedsięwzięcie, które zajęło zaledwie 41 godzin na przetworzenie ponad 30,5 miliona sekund wideo, podkreśla skalowalność i efektywność tego podejścia opartego na AI. Szacowany koszt w pierwszym roku, obejmujący jednorazowe pozyskiwanie i roczny OpenSearch Service, wynosił bardzo konkurencyjne 23 632 USD (z instancjami zarezerwowanymi OpenSearch Service) do 27 328 USD (z modelem na żądanie). Takie rozwiązanie fundamentalnie zmienia sposób, w jaki firmy medialne wchodzą w interakcje ze swoimi cyfrowymi zasobami, otwierając nowe możliwości monetyzacji treści i przepływów pracy produkcyjnych. Ta zmiana paradygmatu w kierunku zrozumienia semantycznego jest kluczowym rozwojem dla AI dla Przedsiębiorstw w mediach.
Zrozumienie Skalowalnej Architektury Multimodalnego Jeziora Danych AI
W swojej istocie ten potężny system wyszukiwania wideo multimodalnego opiera się na dwóch wzajemnie połączonych przepływach pracy: pozyskiwaniu wideo i wyszukiwaniu. Te komponenty płynnie integrują się, tworząc jezioro danych AI, które rozumie i umożliwia wyszukiwanie złożonych szczegółów treści wideo.
Potok Pozyskiwania Wideo
Potok pozyskiwania został zaprojektowany z myślą o przetwarzaniu równoległym i efektywności. Wykorzystuje cztery instancje Amazon EC2 c7i.48xlarge, orkiestrując do 600 równoległych workerów, aby osiągnąć szybkość przetwarzania 19 400 filmów na godzinę. Filmy początkowo przesłane do Amazon S3 są następnie przetwarzane przez asynchroniczne API Amazon Nova Multimodal Embeddings. To API inteligentnie dzieli filmy na optymalne 15-sekundowe fragmenty — co stanowi równowagę między uchwyceniem znaczących zmian sceny a zarządzaniem objętością generowanych osadzeń. Każdy segment jest następnie przekształcany w 1024-wymiarowe osadzenie, reprezentujące jego połączone cechy audio-wizualne. Podczas gdy osadzenia 3072-wymiarowe oferują wyższą wierność, opcja 1024-wymiarowa zapewnia 3-krotną oszczędność kosztów przechowywania przy minimalnym wpływie na dokładność dla tej aplikacji, co czyni ją pragmatycznym wyborem w kontekście skalowania.
Aby jeszcze bardziej poprawić wyszukiwalność, Amazon Nova Pro (lub nowszy, bardziej ekonomiczny Nova 2 Lite) jest używany do generowania 10-15 opisowych tagów na film z predefiniowanej taksonomii. To podwójne podejście zapewnia, że treść jest możliwa do odkrycia zarówno poprzez podobieństwo semantyczne, jak i tradycyjne dopasowywanie słów kluczowych. Te osadzenia są przechowywane w indeksie OpenSearch k-NN, zoptymalizowanym do wyszukiwania podobieństwa wektorowego, podczas gdy tagi opisowe są indeksowane w osobnym indeksie tekstowym. To rozdzielenie pozwala na elastyczne i efektywne zapytania. Potok zarządza limitami współbieżności Bedrock (30 równoczesnych zadań na konto) poprzez solidną kolejkę zadań i mechanizm odpytywania, zapewniając ciągłe i zgodne z przepisami przetwarzanie.
Poniżej znajduje się wizualna reprezentacja tego wyrafinowanego procesu pozyskiwania:

Rysunek 1: Potok pozyskiwania wideo przedstawiający przepływ danych od przechowywania wideo w S3, przez Nova Multimodal Embeddings i Nova Pro, do podwójnych indeksów OpenSearch
Wspieranie Różnorodnych Możliwości Wyszukiwania Wideo
Architektura wyszukiwania została zaprojektowana z myślą o wszechstronności, oferując wiele trybów odkrywania treści:
-
Wyszukiwanie tekst-do-wideo: Użytkownicy mogą wprowadzać zapytania w języku naturalnym, takie jak 'ujęcie z drona tętniącego życiem miasta nocą' lub 'zbliżenie szefa kuchni przygotowującego wykwintny posiłek'. System konwertuje te zapytania na osadzenia, a następnie wykorzystuje indeks OpenSearch k-NN do znalezienia segmentów wideo lub całych filmów, które semantycznie pasują do opisu, nawet jeśli dokładne słowa nie są obecne w żadnych metadanych. Jest to idealne rozwiązanie do intuicyjnego odkrywania treści i tworzenia scenorysów.
-
Wyszukiwanie wideo-do-wideo: W scenariuszach, gdy użytkownik posiada klip wideo i chce znaleźć podobne treści, ten tryb jest doskonały. Poprzez bezpośrednie porównanie osadzeń wideo wejściowego z tymi znajdującymi się w indeksie OpenSearch k-NN, system może zidentyfikować wizualnie i dźwiękowo analogiczne treści. Jest to nieocenione do identyfikowania materiałów B-roll, zapewniania spójności treści lub odkrywania dzieł pochodnych.
-
Wyszukiwanie hybrydowe: Łącząc najlepsze z obu światów, wyszukiwanie hybrydowe integruje podobieństwo wektorowe z tradycyjnym dopasowywaniem słów kluczowych. Proponowane rozwiązanie wykorzystuje podejście ważone (np. 70% podobieństwa wektorowego i 30% dopasowania słów kluczowych). Zapewnia to wysoką dokładność i trafność, pozwalając precyzyjnym metadanym kierować wyszukiwaniem, podczas gdy zrozumienie semantyczne zapewnia szerokie dopasowania kontekstowe. To podejście jest szczególnie skuteczne w przypadku złożonych zapytań, które czerpią korzyści zarówno z precyzyjnych tagów, jak i zrozumienia koncepcyjnego.

Rysunek 2: Architektura wyszukiwania wideo demonstrująca trzy tryby wyszukiwania – tekst-do-wideo, wideo-do-wideo oraz wyszukiwanie hybrydowe łączące k-NN i BM25
Ekonomiczne Wdrożenie i Wymagania Wstępne
Wdrożenie tak zaawansowanego jeziora danych AI wymaga starannego rozważenia infrastruktury i kosztów, które AWS zoptymalizowało pod kątem efektywności. Całkowity koszt przetwarzania obszernych zbiorów danych, około 8 480 godzin treści wideo, wyniósł szacunkowo 27 328 USD w pierwszym roku (z OpenSearch na żądanie) lub 23 632 USD (z instancjami zarezerwowanymi OpenSearch Service).
Podział kosztów pozyskiwania podkreśla kluczowe czynniki:
- Obliczenia Amazon EC2: 421 USD (4x instancje spot c7i.48xlarge przez 41 godzin)
- Amazon Bedrock Nova Multimodal Embeddings: 17 096 USD (30,5 mln sekund po 0,00056 USD/sekundę w cenie pakietowej)
- Tagowanie Nova Pro: 571 USD (792 tys. filmów, średnio ok. 600 tokenów/film)
- Amazon OpenSearch Service: 9 240 USD (rocznie na żądanie) lub 5 544 USD (rocznie zarezerwowane)
Wymagania Wstępne do Implementacji: Aby replikować lub adaptować to rozwiązanie, będziesz potrzebować:
- Konta AWS z dostępem do Amazon Bedrock w regionie
us-east-1. - Pythona 3.9 lub nowszego.
- Interfejsu wiersza poleceń AWS (AWS CLI) skonfigurowanego z odpowiednimi poświadczeniami.
- Domeny Amazon OpenSearch Service (zalecana r6g.large lub większa), w wersji 2.11 lub nowszej, z włączoną wtyczką k-NN.
- Bucketa Amazon S3 do przechowywania wideo i wyników osadzania.
- Uprawnień AWS Identity and Access Management (IAM) dla Amazon Bedrock, OpenSearch Service i Amazon S3.
Rozwiązanie wykorzystuje określone usługi i modele AWS:
- Amazon Bedrock z
amazon.nova-2-multimodal-embeddings-v1:0do osadzania. - Amazon Bedrock z
us.amazon.nova-pro-v1:0lubus.amazon.nova-2-lite-v1:0do tagowania. - Amazon OpenSearch Service 2.11+ z wtyczką k-NN.
- Amazon S3 do przechowywania.
Implementacja Multimodalnego Rozwiązania Wyszukiwania Wideo
Rozpoczęcie pracy z tą architekturą wymaga ustrukturyzowanego podejścia do konfiguracji środowiska AWS. Pierwszym kluczowym krokiem jest ustalenie niezbędnych uprawnień.
Krok 1: Tworzenie Ról i Polityk IAM
Musisz utworzyć rolę IAM, która nada Twojej aplikacji lub usłudze uprawnienia do interakcji z różnymi komponentami AWS. Ta rola musi zawierać uprawnienia do wywoływania modeli Amazon Bedrock (zarówno do generowania osadzeń, jak i tagowania), zapisywania danych do indeksów OpenSearch oraz wykonywania operacji odczytu/zapisu na bucketach Amazon S3, gdzie znajdują się Twoje treści wideo i przetworzone wyniki.
Oto przykład podstawowej struktury polityki IAM:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Ta polityka nadaje określone uprawnienia niezbędne do działania potoku. Pamiętaj, aby zastąpić symbole zastępcze, takie jak your-video-bucket i your-opensearch-domain, nazwami Twoich rzeczywistych zasobów. Po konfiguracji IAM, należy przejść do konfiguracji bucketów S3, ustawienia domeny OpenSearch Service z włączoną wtyczką k-NN oraz opracowania logiki orkiestracji, która wykorzystuje API Bedrock do pozyskiwania. Ta solidna struktura zapewnia, że firmy medialne i rozrywkowe mogą efektywnie zarządzać, odkrywać i monetyzować swoje stale rosnące biblioteki treści, co stanowi znaczący krok naprzód w inteligencji treści. To kompleksowe rozwiązanie jest przykładem tego, jak nowoczesne możliwości AI, zwłaszcza w zakresie multimodalnego rozumienia, redefiniują standardy branżowe dla zarządzania treścią i dostępności. Jest to świadectwo mocy integracji zaawansowanych modeli AI ze skalowalną infrastrukturą chmurową w celu rozwiązywania rzeczywistych wyzwań AI dla Przedsiębiorstw, sprzyjając postępom podobnym do tych obserwowanych w agentowych przepływach pracy AI.
Źródło oryginalne
https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/Często zadawane pytania
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Bądź na bieżąco
Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.
