Binabago ang Paghahanap ng Video gamit ang Multimodal Embeddings
Ang industriya ng media at libangan ay sagana sa napakaraming nilalaman ng video. Mula sa archival footage hanggang sa pang-araw-araw na pag-upload, ang napakalaking dami ay nagiging sanhi upang ang tradisyonal na mga pamamaraan ng pagtuklas ng nilalaman — manual na pag-tag at paghahanap batay sa keyword — ay lalong hindi epektibo at madalas na hindi tumpak. Ang mga lumang pamamaraang ito ay nahihirapang makuha ang buong kayamanan at pinong konteksto na nakapaloob sa loob ng video, na nagdudulot ng mga nawawalang pagkakataon para sa muling paggamit ng nilalaman, mas mabilis na produksyon, at pinahusay na karanasan ng manonood.
Narito ang panahon ng multimodal embeddings. Nagunguna ang AWS sa isang solusyon na lumalampas sa mga limitasyong ito, na nagbibigay-daan sa mga kakayahan ng semantic search sa napakalaking dataset ng video. Sa pamamagitan ng paggamit ng kapangyarihan ng mga modelo ng Amazon Nova at Amazon OpenSearch Service, ang mga tagalikha at distributor ng nilalaman ay maaaring lumampas sa mga mababaw na keyword upang tunay na maunawaan at ma-access ang kanilang mga library ng media. Ang makabagong pamamaraang ito ay nagbibigay-daan sa mga natural na query sa wika upang suriin ang lalim ng visual at auditory na impormasyon, na nagdadala ng walang kapantay na katumpakan sa pagtuklas ng nilalaman.
Nagpapakita ng kakayahang ito sa isang kahanga-hangang saklaw, pinroseso ng AWS ang 792,270 video mula sa AWS Open Data Registry, na sumasaklaw sa kahanga-hangang 8,480 oras ng nilalaman ng video. Ang ambisyosong proyektong ito, na tumagal lamang ng 41 oras upang maproseso ang mahigit 30.5 milyong segundo ng video, ay nagbibigay-diin sa scalability at kahusayan ng pamamaraang ito na hinimok ng AI. Ang gastos sa unang taon, kasama ang one-time na pagkuha at taunang OpenSearch Service, ay tinatayang nasa lubos na mapagkumpitensyang $23,632 (na may OpenSearch Service Reserved Instances) hanggang $27,328 (na may on-demand). Ang naturang solusyon ay lubos na nagbabago kung paano nakikipag-ugnayan ang mga kumpanya ng media sa kanilang mga digital asset, na nagbubukas ng mga bagong paraan para sa pagkakakitaan ng nilalaman at mga workflow ng produksyon. Ang pagbabagong ito patungo sa semantic na pag-unawa ay isang kritikal na pag-unlad para sa AI sa Negosyo sa media.
Pag-unawa sa Scalable na Multimodal AI Data Lake Architecture
Sa puso nito, ang makapangyarihang sistemang ito ng paghahanap ng multimodal na video ay binuo sa dalawang magkakaugnay na workflow: pagkuha ng video at paghahanap. Ang mga component na ito ay walang putol na nagsasama upang lumikha ng isang AI data lake na nauunawaan at nagagawang searchable ang masalimuot na detalye ng nilalaman ng video.
Pipeline ng Pagkuha ng Video
Ang pipeline ng pagkuha ay idinisenyo para sa parallel processing at kahusayan. Gumagamit ito ng apat na Amazon EC2 c7i.48xlarge instance, na nag-o-orkestra ng hanggang 600 parallel worker upang makamit ang bilis ng pagproseso na 19,400 video bawat oras. Ang mga video na unang na-upload sa Amazon S3 ay pinoproseso ng Amazon Nova Multimodal Embeddings asynchronous API. Mahusay na sinisegmento ng API na ito ang mga video sa optimal na 15-segundong chunks — isang balanse sa pagitan ng pagkuha ng makabuluhang pagbabago sa eksena at pamamahala ng dami ng nabuong embeddings. Ang bawat segment ay binabago sa isang 1024-dimensional na embedding, na kumakatawan sa pinagsamang mga tampok na audio-visual nito. Habang ang 3072-dimensional na embeddings ay nag-aalok ng mas mataas na fidelity, ang 1024-dimensional na opsyon ay nagbibigay ng 3x na pagtitipid sa gastos sa storage na may minimal na epekto sa katumpakan para sa application na ito, na ginagawa itong isang praktikal na pagpipilian para sa saklaw.
Upang higit pang mapahusay ang searchability, ginagamit ang Amazon Nova Pro (o ang mas bago, mas cost-effective na Nova 2 Lite) upang bumuo ng 10-15 naglalarawang tag bawat video mula sa isang paunang natukoy na taxonomy. Tinitiyak ng dual approach na ito na ang nilalaman ay matutuklasan sa pamamagitan ng semantic similarity at tradisyonal na keyword matching. Ang mga embedding na ito ay naka-imbak sa isang OpenSearch k-NN index, na na-optimize para sa vector similarity search, habang ang mga naglalarawang tag ay ini-index sa isang hiwalay na text index. Pinapayagan ng paghihiwalay na ito ang flexible at mahusay na pag-query. Pinamamahalaan ng pipeline ang mga limitasyon ng concurrency ng Bedrock (30 concurrent na trabaho bawat account) sa pamamagitan ng isang matatag na job queue at polling mechanism, na tinitiyak ang tuloy-tuloy at sumusunod na pagproseso.
Nasa ibaba ang isang visual na representasyon ng sopistikadong proseso ng pagkuha na ito:

Larawan 1: Pipeline ng pagkuha ng video na nagpapakita ng daloy mula sa S3 video storage sa pamamagitan ng Nova Multimodal Embeddings at Nova Pro patungo sa dalawahang OpenSearch index
Pagbibigay-kapangyarihan sa Iba't Ibang Kakayahan sa Paghahanap ng Video
Ang search architecture ay idinisenyo para sa versatility, na nag-aalok ng maraming mode ng pagtuklas ng nilalaman:
-
Paghahanap ng Teksto-sa-Video: Maaaring maglagay ang mga user ng natural na query sa wika, tulad ng 'isang drone shot ng isang abalang lungsod sa gabi' o 'isang close-up ng isang chef na naghahanda ng gourmet meal.' Kino-convert ng system ang mga query na ito sa embeddings, pagkatapos ay ginagamit ang OpenSearch k-NN index upang makahanap ng mga segment ng video o buong video na semantiko na tumutugma sa paglalarawan, kahit na ang eksaktong mga salita ay hindi naroroon sa anumang metadata. Ito ay perpekto para sa intuitive na pagtuklas ng nilalaman at storyboarding.
-
Paghahanap ng Video-sa-Video: Para sa mga sitwasyon kung saan ang isang user ay may video clip at gustong makahanap ng katulad na nilalaman, mahusay ang mode na ito. Sa pamamagitan ng direktang paghahambing ng mga embedding ng input video sa mga nasa OpenSearch k-NN index, matutukoy ng system ang visually at audibly analogous na nilalaman. Napakahalaga nito para sa pagtukoy ng B-roll footage, pagtiyak ng pagkakapare-pareho ng nilalaman, o pagtuklas ng mga derivative na gawa.
-
Hybrid Search: Pinagsasama ang pinakamahusay sa parehong mundo, isinasama ng hybrid search ang vector similarity sa tradisyonal na pagtutugma ng keyword. Gumagamit ang iminungkahing solusyon ng isang weighted approach (hal., 70% vector similarity at 30% keyword matching). Tinitiyak nito ang mataas na katumpakan at kaugnayan, na nagpapahintulot sa partikular na metadata na gabayan ang paghahanap habang ang semantic na pag-unawa ay nagbibigay ng malawak na kontekstuwal na pagtutugma. Ang pamamaraang ito ay partikular na epektibo para sa mga kumplikadong query na nakikinabang mula sa parehong tumpak na tag at konseptuwal na pag-unawa.

Larawan 2: Arkitektura ng paghahanap ng video na nagpapakita ng tatlong mode ng paghahanap – text-to-video, video-to-video, at hybrid search na pinagsasama ang k-NN at BM25
Cost-Effective na Deployment at mga Kinakailangan
Ang pag-deploy ng naturang sopistikadong AI data lake ay nangangailangan ng maingat na pagsasaalang-alang sa imprastraktura at mga gastos, na na-optimize ng AWS para sa kahusayan. Ang kabuuang gastos para sa pagproseso ng malalawak na dataset, humigit-kumulang 8,480 oras ng nilalaman ng video, ay umabot sa tinatayang kabuuang $27,328 sa unang taon (na may OpenSearch on-demand) o $23,632 (na may OpenSearch Service Reserved Instances).
Ang pagkasira ng pagkuha ay nagbibigay-diin sa mga pangunahing nagtutulak ng gastos:
- Amazon EC2 compute: $421 (4x c7i.48xlarge spot instances sa loob ng 41 oras)
- Amazon Bedrock Nova Multimodal Embeddings: $17,096 (30.5M segundo sa $0.00056/segundo batch pricing)
- Nova Pro tagging: $571 (792K video, humigit-kumulang 600 token/video average)
- Amazon OpenSearch Service: $9,240 (on-demand taunang) o $5,544 (Reserved taunang)
Mga Kinakailangan para sa Pagpapatupad: Upang gayahin o iangkop ang solusyon na ito, kakailanganin mo:
- Isang AWS account na may access sa Amazon Bedrock sa
us-east-1. - Python 3.9 o mas bago.
- AWS Command Line Interface (AWS CLI) na naka-configure gamit ang naaangkop na mga kredensyal.
- Isang domain ng Amazon OpenSearch Service (r6g.large o mas malaki ang inirerekomenda), bersyon 2.11 o mas bago, na may k-NN plugin na pinagana.
- Isang Amazon S3 bucket para sa imbakan ng video at mga output ng embedding.
- Mga pahintulot ng AWS Identity and Access Management (IAM) para sa Amazon Bedrock, OpenSearch Service, at Amazon S3.
Ginagamit ng solusyon ang mga partikular na serbisyo at modelo ng AWS:
- Amazon Bedrock na may
amazon.nova-2-multimodal-embeddings-v1:0para sa embeddings. - Amazon Bedrock na may
us.amazon.nova-pro-v1:0ous.amazon.nova-2-lite-v1:0para sa pag-tag. - Amazon OpenSearch Service 2.11+ na may k-NN plugin.
- Amazon S3 para sa imbakan.
Pagpapatupad ng Multimodal Video Search Solution
Ang pagsisimula sa arkitektura na ito ay nagsasangkot ng isang structured na diskarte sa pag-set up ng iyong AWS environment. Ang unang mahalagang hakbang ay ang pagtatatag ng kinakailangang mga pahintulot.
Hakbang 1: Gumawa ng mga IAM Role at Patakaran
Kakailanganin mong gumawa ng isang IAM role na nagbibigay sa iyong application o serbisyo ng awtoridad na makipag-ugnayan sa iba't ibang component ng AWS. Ang role na ito ay dapat magsama ng mga pahintulot upang tawagan ang mga modelo ng Amazon Bedrock (para sa parehong pagbuo ng embedding at pag-tag), magsulat ng data sa mga OpenSearch index, at magsagawa ng mga operasyon ng read/write sa mga Amazon S3 bucket kung saan nakalagay ang iyong nilalaman ng video at mga naprosesong output.
Narito ang isang halimbawa ng pangunahing istraktura ng patakaran ng IAM:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
Ang patakarang ito ay nagbibigay ng mga partikular na pahintulot na mahalaga para sa operasyon ng pipeline. Tandaan na palitan ang mga placeholder tulad ng your-video-bucket at your-opensearch-domain ng iyong aktwal na pangalan ng resource. Kasunod ng pag-setup ng IAM, magpapatuloy ka sa pag-configure ng iyong mga S3 bucket, pag-set up ng iyong domain ng OpenSearch Service na may k-NN na pinagana, at pagbuo ng orchestration logic na gumagamit ng mga Bedrock API para sa pagkuha. Tinitiyak ng matatag na framework na ito na ang mga kumpanya ng media at libangan ay mahusay na makapamamahala, makatutuklas, at makapagkakakitaan ng kanilang patuloy na lumalaking library ng nilalaman, na nagmamarka ng isang makabuluhang pagtalon sa intelligence ng nilalaman. Ang komprehensibong solusyon na ito ay isang halimbawa kung paano binabago ng modernong kakayahan ng AI, partikular sa multimodal na pag-unawa, ang mga pamantayan ng industriya para sa pamamahala ng nilalaman at accessibility. Ito ay isang patunay sa kapangyarihan ng pagsasama ng mga advanced na modelo ng AI sa scalable na cloud infrastructure upang malutas ang mga hamon ng AI sa Negosyo sa totoong mundo, na nagtataguyod ng mga pag-unlad na katulad ng mga nakikita sa Agentic AI workflows.
Orihinal na pinagmulan
https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/Mga Karaniwang Tanong
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
Manatiling Updated
Kunin ang pinakabagong AI news sa iyong inbox.
