ปฏิวัติการค้นหาวิดีโอด้วยการฝังแบบหลายโมดอล
อุตสาหกรรมสื่อและความบันเทิงเต็มไปด้วยเนื้อหาวิดีโอจำนวนมหาศาล ตั้งแต่ฟุตเทจเก็บถาวรไปจนถึงการอัปโหลดรายวัน ปริมาณมหาศาลทำให้วิธีการค้นหาเนื้อหาแบบดั้งเดิม – การติดแท็กด้วยตนเองและการค้นหาด้วยคีย์เวิร์ด – ไม่ได้ผลและมักจะไม่แม่นยำมากขึ้นเรื่อยๆ แนวทางแบบเก่าเหล่านี้ประสบปัญหาในการจับภาพความสมบูรณ์และบริบทที่ละเอียดอ่อนทั้งหมดที่ฝังอยู่ในวิดีโอ นำไปสู่การพลาดโอกาสในการนำเนื้อหากลับมาใช้ใหม่ การผลิตที่รวดเร็วขึ้น และประสบการณ์การรับชมที่ดียิ่งขึ้น
เข้าสู่ยุคของการฝังแบบหลายโมดอล AWS กำลังบุกเบิกโซลูชันที่ก้าวข้ามข้อจำกัดเหล่านี้ ทำให้สามารถค้นหาเชิงความหมายในชุดข้อมูลวิดีโอขนาดใหญ่ได้ ด้วยการใช้พลังของโมเดล Amazon Nova และ Amazon OpenSearch Service ผู้สร้างเนื้อหาและผู้จัดจำหน่ายสามารถก้าวข้ามคีย์เวิร์ดพื้นผิวเพื่อทำความเข้าใจและเข้าถึงคลังสื่อของตนได้อย่างแท้จริง แนวทางนวัตกรรมนี้ช่วยให้การค้นหาด้วยภาษาธรรมชาติสามารถสำรวจข้อมูลภาพและเสียงได้อย่างลึกซึ้ง นำความแม่นยำที่ไม่เคยมีมาก่อนมาสู่การค้นพบเนื้อหา
AWS แสดงให้เห็นถึงความสามารถนี้ในขนาดที่น่าประทับใจ โดยได้ประมวลผลวิดีโอ 792,270 รายการจาก AWS Open Data Registry ซึ่งครอบคลุมเนื้อหาวิดีโอที่น่าทึ่งถึง 8,480 ชั่วโมง การดำเนินการที่ทะเยอทะยานนี้ใช้เวลาเพียง 41 ชั่วโมงในการประมวลผลวิดีโอมากกว่า 30.5 ล้านวินาที ซึ่งเน้นย้ำถึงความสามารถในการปรับขนาดและประสิทธิภาพของแนวทางที่ขับเคลื่อนด้วย AI นี้ ต้นทุนในปีแรก รวมถึงการนำเข้าครั้งเดียวและ Amazon OpenSearch Service รายปี ประมาณการไว้ที่ 23,632 ดอลลาร์สหรัฐฯ (สำหรับ OpenSearch Service Reserved Instances) ถึง 27,328 ดอลลาร์สหรัฐฯ (สำหรับ on-demand) ซึ่งเป็นราคาที่แข่งขันได้สูง โซลูชันดังกล่าวเปลี่ยนแปลงวิธีการที่บริษัทสื่อมีปฏิสัมพันธ์กับสินทรัพย์ดิจิทัลของตนโดยพื้นฐาน ปลดล็อกช่องทางใหม่สำหรับการสร้างรายได้จากเนื้อหาและขั้นตอนการทำงานในการผลิต การเปลี่ยนแปลงกระบวนทัศน์ไปสู่ความเข้าใจเชิงความหมายนี้เป็นการพัฒนาที่สำคัญสำหรับ AI สำหรับองค์กร ในสื่อ
ทำความเข้าใจสถาปัตยกรรมทะเลสาบข้อมูล AI แบบหลายโมดอลที่ปรับขนาดได้
โดยหลักแล้ว ระบบค้นหาวิดีโอแบบหลายโมดอลที่มีประสิทธิภาพนี้สร้างขึ้นจากขั้นตอนการทำงานสองส่วนที่เชื่อมโยงกัน: การนำเข้าวิดีโอและการค้นหา ส่วนประกอบเหล่านี้รวมเข้าด้วยกันอย่างราบรื่นเพื่อสร้างทะเลสาบข้อมูล AI ที่เข้าใจและทำให้รายละเอียดที่ซับซ้อนของเนื้อหาวิดีโอสามารถค้นหาได้
ไปป์ไลน์การนำเข้าวิดีโอ
ไปป์ไลน์การนำเข้าได้รับการออกแบบมาสำหรับการประมวลผลแบบขนานและมีประสิทธิภาพ โดยใช้อินสแตนซ์ Amazon EC2 c7i.48xlarge สี่ตัว ซึ่งจัดการผู้ปฏิบัติงานแบบขนานสูงสุด 600 รายการ เพื่อให้บรรลุอัตราการประมวลผล 19,400 วิดีโอต่อชั่วโมง วิดีโอที่อัปโหลดไปยัง Amazon S3 ในตอนแรกจะถูกประมวลผลโดย API แบบอะซิงโครนัสของ Amazon Nova Multimodal Embeddings API นี้จะแบ่งวิดีโอออกเป็นส่วนที่เหมาะสมที่สุด 15 วินาทีอย่างชาญฉลาด ซึ่งเป็นการรักษาสมดุลระหว่างการจับภาพการเปลี่ยนแปลงฉากที่สำคัญและการจัดการปริมาณของการฝังที่สร้างขึ้น แต่ละส่วนจะถูกแปลงเป็นการฝัง 1024 มิติ ซึ่งเป็นตัวแทนของคุณสมบัติภาพและเสียงรวมกัน ในขณะที่การฝัง 3072 มิติให้ความแม่นยำสูงกว่า ตัวเลือก 1024 มิติช่วยประหยัดค่าใช้จ่ายในการจัดเก็บ 3 เท่าโดยมีผลกระทบต่อความแม่นยำน้อยที่สุดสำหรับการใช้งานนี้ ทำให้เป็นทางเลือกที่ใช้งานได้จริงสำหรับขนาดที่ใหญ่
เพื่อเพิ่มความสามารถในการค้นหาให้ดียิ่งขึ้น Amazon Nova Pro (หรือ Nova 2 Lite รุ่นใหม่ที่ประหยัดต้นทุนกว่า) ถูกนำมาใช้เพื่อสร้างแท็กอธิบาย 10-15 แท็กต่อวิดีโอจากอนุกรมวิธานที่กำหนดไว้ล่วงหน้า แนวทางสองทางนี้ช่วยให้มั่นใจว่าเนื้อหาสามารถค้นพบได้ทั้งจากการเทียบเคียงเชิงความหมายและการจับคู่คีย์เวิร์ดแบบดั้งเดิม การฝังเหล่านี้จะถูกจัดเก็บในดัชนี OpenSearch k-NN ซึ่งปรับให้เหมาะกับการค้นหาความคล้ายคลึงกันของเวกเตอร์ ในขณะที่แท็กอธิบายจะถูกจัดทำดัชนีในดัชนีข้อความแยกต่างหาก การแยกนี้ช่วยให้สามารถสอบถามได้อย่างยืดหยุ่นและมีประสิทธิภาพ ไปป์ไลน์จัดการข้อจำกัดการทำงานพร้อมกันของ Bedrock (งานพร้อมกัน 30 งานต่อบัญชี) ผ่านคิวงานที่แข็งแกร่งและกลไกการสำรวจสถานะ เพื่อให้มั่นใจว่ามีการประมวลผลอย่างต่อเนื่องและเป็นไปตามข้อกำหนด
ด้านล่างนี้คือภาพแสดงกระบวนการนำเข้าที่ซับซ้อนนี้:

รูปภาพที่ 1: ไปป์ไลน์การนำเข้าวิดีโอ แสดงการไหลของข้อมูลจากการจัดเก็บวิดีโอใน S3 ผ่าน Nova Multimodal Embeddings และ Nova Pro ไปยังดัชนี OpenSearch แบบคู่
เสริมศักยภาพความสามารถในการค้นหาวิดีโอที่หลากหลาย
สถาปัตยกรรมการค้นหาได้รับการออกแบบมาเพื่อความหลากหลาย โดยนำเสนอโหมดการค้นหาเนื้อหาที่หลากหลาย:
-
การค้นหาจากข้อความไปยังวิดีโอ: ผู้ใช้สามารถป้อนคำค้นหาภาษาธรรมชาติ เช่น "ภาพโดรนของเมืองที่พลุกพล่านในเวลากลางคืน" หรือ "ภาพระยะใกล้ของเชฟกำลังเตรียมอาหารเลิศรส" ระบบจะแปลงคำค้นหาเหล่านี้เป็นการฝัง จากนั้นใช้ดัชนี OpenSearch k-NN เพื่อค้นหาเซ็กเมนต์วิดีโอหรือวิดีโอทั้งหมดที่ตรงกับคำอธิบายเชิงความหมาย แม้ว่าคำที่ตรงกันทุกประการจะไม่มีอยู่ในเมตาดาต้าใดๆ สิ่งนี้เหมาะสำหรับการค้นพบเนื้อหาและการจัดโครงเรื่องที่ใช้งานง่าย
-
การค้นหาจากวิดีโอไปยังวิดีโอ: สำหรับสถานการณ์ที่ผู้ใช้มีคลิปวิดีโอและต้องการค้นหาเนื้อหาที่คล้ายกัน โหมดนี้มีความโดดเด่น ด้วยการเปรียบเทียบการฝังของวิดีโอที่ป้อนโดยตรงกับที่อยู่ในดัชนี OpenSearch k-NN ระบบสามารถระบุเนื้อหาที่คล้ายคลึงกันทางภาพและเสียงได้ สิ่งนี้มีคุณค่าอย่างยิ่งสำหรับการระบุฟุตเทจ B-roll การรับรองความสอดคล้องของเนื้อหา หรือการค้นพบผลงานที่ได้มา
-
การค้นหาแบบไฮบริด: การรวมสิ่งที่ดีที่สุดของทั้งสองโลก การค้นหาแบบไฮบริดจะรวมความคล้ายคลึงกันของเวกเตอร์เข้ากับการจับคู่คีย์เวิร์ดแบบดั้งเดิม โซลูชันที่เสนอใช้วิธีการถ่วงน้ำหนัก (เช่น ความคล้ายคลึงกันของเวกเตอร์ 70% และการจับคู่คีย์เวิร์ด 30%) สิ่งนี้ช่วยให้มั่นใจถึงความแม่นยำและความเกี่ยวข้องสูง ทำให้เมตาดาต้าเฉพาะนำทางการค้นหา ในขณะที่ความเข้าใจเชิงความหมายให้การจับคู่บริบทที่กว้าง แนวทางนี้มีประสิทธิภาพเป็นพิเศษสำหรับคำค้นหาที่ซับซ้อนซึ่งได้รับประโยชน์จากทั้งแท็กที่แม่นยำและความเข้าใจเชิงแนวคิด

รูปภาพที่ 2: สถาปัตยกรรมการค้นหาวิดีโอที่แสดงโหมดการค้นหาสามแบบ – การค้นหาจากข้อความไปยังวิดีโอ, การค้นหาจากวิดีโอไปยังวิดีโอ และการค้นหาแบบไฮบริดที่รวม k-NN และ BM25
การปรับใช้ที่คุ้มค่าและข้อกำหนดเบื้องต้น
การปรับใช้ทะเลสาบข้อมูล AI ที่ซับซ้อนดังกล่าวจำเป็นต้องพิจารณาโครงสร้างพื้นฐานและต้นทุนอย่างรอบคอบ ซึ่ง AWS ได้ปรับให้เหมาะสมเพื่อประสิทธิภาพ ต้นทุนทั้งหมดสำหรับการประมวลผลชุดข้อมูลขนาดใหญ่ ซึ่งประมาณ 8,480 ชั่วโมงของเนื้อหาวิดีโอ อยู่ที่ประมาณ 27,328 ดอลลาร์สหรัฐฯ (สำหรับ OpenSearch on-demand) หรือ 23,632 ดอลลาร์สหรัฐฯ (สำหรับ OpenSearch Service Reserved Instances) ในปีแรก
การแยกย่อยค่าใช้จ่ายในการนำเข้าเน้นให้เห็นถึงปัจจัยขับเคลื่อนต้นทุนที่สำคัญ:
- การประมวลผล Amazon EC2: 421 ดอลลาร์สหรัฐฯ (อินสแตนซ์ c7i.48xlarge แบบสปอต 4 ตัว เป็นเวลา 41 ชั่วโมง)
- Amazon Bedrock Nova Multimodal Embeddings: 17,096 ดอลลาร์สหรัฐฯ (30.5 ล้านวินาที ที่ 0.00056 ดอลลาร์สหรัฐฯ/วินาที สำหรับราคาแบบแบทช์)
- การติดแท็ก Nova Pro: 571 ดอลลาร์สหรัฐฯ (วิดีโอ 792K โดยเฉลี่ยประมาณ 600 โทเค็น/วิดีโอ)
- Amazon OpenSearch Service: 9,240 ดอลลาร์สหรัฐฯ (on-demand รายปี) หรือ 5,544 ดอลลาร์สหรัฐฯ (Reserved รายปี)
ข้อกำหนดเบื้องต้นสำหรับการใช้งาน: หากต้องการทำซ้ำหรือปรับใช้โซลูชันนี้ คุณจะต้องมี:
- บัญชี AWS พร้อมการเข้าถึง Amazon Bedrock ใน
us-east-1 - Python 3.9 หรือใหม่กว่า
- AWS Command Line Interface (AWS CLI) ที่กำหนดค่าด้วยข้อมูลประจำตัวที่เหมาะสม
- โดเมน Amazon OpenSearch Service (แนะนำ r6g.large หรือใหญ่กว่า) เวอร์ชัน 2.11 หรือใหม่กว่า โดยเปิดใช้งานปลั๊กอิน k-NN
- บัคเก็ต Amazon S3 สำหรับจัดเก็บวิดีโอและผลลัพธ์การฝัง
- สิทธิ์ AWS Identity and Access Management (IAM) สำหรับ Amazon Bedrock, OpenSearch Service และ Amazon S3
โซลูชันนี้ใช้บริการและโมเดล AWS เฉพาะ:
- Amazon Bedrock พร้อม
amazon.nova-2-multimodal-embeddings-v1:0สำหรับการฝัง - Amazon Bedrock พร้อม
us.amazon.nova-pro-v1:0หรือus.amazon.nova-2-lite-v1:0สำหรับการติดแท็ก - Amazon OpenSearch Service 2.11+ พร้อมปลั๊กอิน k-NN
- Amazon S3 สำหรับการจัดเก็บ
การนำโซลูชันการค้นหาวิดีโอแบบหลายโมดอลไปใช้
การเริ่มต้นใช้งานสถาปัตยกรรมนี้เกี่ยวข้องกับแนวทางที่เป็นระบบในการตั้งค่าสภาพแวดล้อม AWS ของคุณ ขั้นตอนแรกที่สำคัญคือการสร้างสิทธิ์ที่จำเป็น
ขั้นตอนที่ 1: สร้างบทบาทและนโยบาย IAM
คุณจะต้องสร้าง บทบาท IAM ที่ให้สิทธิ์แอปพลิเคชันหรือบริการของคุณในการโต้ตอบกับส่วนประกอบ AWS ต่างๆ บทบาทนี้ต้องมีสิทธิ์ในการเรียกใช้โมเดล Amazon Bedrock (สำหรับการสร้างการฝังและการติดแท็ก) เขียนข้อมูลไปยังดัชนี OpenSearch และดำเนินการอ่าน/เขียนบนบัคเก็ต Amazon S3 ที่เก็บเนื้อหาวิดีโอและผลลัพธ์ที่ประมวลผลของคุณ
นี่คือตัวอย่างโครงสร้างนโยบาย IAM พื้นฐาน:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel",
"bedrock:StartAsyncInvoke",
"bedrock:GetAsyncInvoke",
"bedrock:List"
],
"Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::your-video-bucket/*",
"arn:aws:s3:::your-video-bucket"
]
},
{
"Effect": "Allow",
"Action": [
"es:ESHttpPost",
"es:ESHttpPut",
"es:ESHttpDelete",
"es:ESHttpGet"
],
"Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
}
]
}
นโยบายนี้ให้สิทธิ์เฉพาะที่จำเป็นสำหรับการดำเนินงานของไปป์ไลน์ โปรดจำไว้ว่าให้แทนที่ตัวยึดตำแหน่ง เช่น your-video-bucket และ your-opensearch-domain ด้วยชื่อทรัพยากรจริงของคุณ หลังจากตั้งค่า IAM คุณจะต้องดำเนินการกำหนดค่าบัคเก็ต S3 ตั้งค่าโดเมน OpenSearch Service ของคุณโดยเปิดใช้งาน k-NN และพัฒนาตรรกะการจัดระบบที่ใช้ประโยชน์จาก Bedrock APIs สำหรับการนำเข้า เฟรมเวิร์กที่แข็งแกร่งนี้ช่วยให้มั่นใจว่าบริษัทสื่อและความบันเทิงสามารถจัดการ ค้นพบ และสร้างรายได้จากคลังเนื้อหาที่เติบโตอย่างต่อเนื่องได้อย่างมีประสิทธิภาพ ซึ่งถือเป็นก้าวสำคัญในด้านข่าวกรองเนื้อหา โซลูชันที่ครอบคลุมนี้เป็นตัวอย่างว่าความสามารถของ AI สมัยใหม่ โดยเฉพาะอย่างยิ่งในการทำความเข้าใจแบบหลายโมดอล กำลังกำหนดมาตรฐานอุตสาหกรรมสำหรับการจัดการเนื้อหาและการเข้าถึงได้อย่างไร เป็นเครื่องพิสูจน์ถึงพลังของการรวมโมเดล AI ขั้นสูงเข้ากับโครงสร้างพื้นฐานคลาวด์ที่ปรับขนาดได้เพื่อแก้ปัญหา AI สำหรับองค์กร ในโลกแห่งความเป็นจริง ซึ่งส่งเสริมความก้าวหน้าคล้ายกับที่พบใน ขั้นตอนการทำงานของ Agentic AI
คำถามที่พบบ่อย
What is a multimodal AI data lake for media and entertainment workloads?
How does the video ingestion pipeline handle large-scale datasets?
What types of video search capabilities does this solution enable?
Which AWS services are critical for building this multimodal embedding solution?
What are the cost considerations for deploying such a large-scale multimodal video search system?
Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?
How does the Amazon Nova family of models contribute to this solution?
What are the benefits of using OpenSearch Service's k-NN index in this architecture?
อัปเดตข่าวสาร
รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ
