Escalado de Embeddings Multimodales: Data Lake de IA para Medios y Entretenimiento

Revolucionando la Búsqueda de Vídeo con Embeddings Multimodales

La industria de los medios y el entretenimiento está inundada de vastos océanos de contenido de vídeo. Desde material de archivo hasta cargas diarias, el volumen en sí mismo hace que los métodos tradicionales de descubrimiento de contenido (etiquetado manual y búsquedas basadas en palabras clave) sean cada vez más ineficientes y, a menudo, inexactos. Estos enfoques heredados luchan por capturar la riqueza completa y el contexto matizado incrustado en el vídeo, lo que lleva a oportunidades perdidas para la reutilización de contenido, una producción más rápida y experiencias de visualización mejoradas.

Entra en la era de los embeddings multimodales. AWS está siendo pionero en una solución que trasciende estas limitaciones, permitiendo capacidades de búsqueda semántica en conjuntos de datos de vídeo colosales. Al aprovechar el poder de los modelos Amazon Nova y Amazon OpenSearch Service, los creadores y distribuidores de contenido pueden ir más allá de las palabras clave superficiales para comprender y acceder realmente a sus bibliotecas de medios. Este enfoque innovador permite que las consultas en lenguaje natural profundicen en la información visual y auditiva, brindando una precisión sin precedentes al descubrimiento de contenido.

Demostrando esta capacidad a una escala impresionante, AWS ha procesado 792,270 vídeos del Registro de Datos Abiertos de AWS, abarcando asombrosas 8,480 horas de contenido de vídeo. Esta ambiciosa empresa, que tardó solo 41 horas en procesar más de 30.5 millones de segundos de vídeo, destaca la escalabilidad y eficiencia de este enfoque impulsado por la IA. El costo del primer año, incluida la ingesta única y el servicio anual de OpenSearch, se estimó en un muy competitivo $23,632 (con instancias reservadas de OpenSearch Service) a $27,328 (bajo demanda). Una solución así transforma fundamentalmente la forma en que las empresas de medios interactúan con sus activos digitales, abriendo nuevas vías para la monetización de contenido y los flujos de trabajo de producción. Este cambio de paradigma hacia la comprensión semántica es un desarrollo crítico para la IA Empresarial en los medios.

Comprendiendo la Arquitectura Escalable del Data Lake de IA Multimodal

En su núcleo, este potente sistema de búsqueda de vídeo multimodal se basa en dos flujos de trabajo interconectados: ingesta de vídeo y búsqueda. Estos componentes se integran a la perfección para crear un data lake de IA que comprende y hace que los intrincados detalles del contenido de vídeo sean buscables.

Canalización de Ingesta de Vídeo

La canalización de ingesta está diseñada para el procesamiento paralelo y la eficiencia. Utiliza cuatro instancias de Amazon EC2 c7i.48xlarge, orquestando hasta 600 trabajadores paralelos para lograr una tasa de procesamiento de 19,400 vídeos por hora. Los vídeos inicialmente subidos a Amazon S3 son procesados por la API asíncrona de Amazon Nova Multimodal Embeddings. Esta API segmenta inteligentemente los vídeos en fragmentos óptimos de 15 segundos, un equilibrio entre la captura de cambios significativos en la escena y la gestión del volumen de embeddings generados. Cada segmento se transforma luego en un embedding de 1024 dimensiones, que representa sus características audiovisuales combinadas. Si bien los embeddings de 3072 dimensiones ofrecen una mayor fidelidad, la opción de 1024 dimensiones proporciona un ahorro de costos de almacenamiento 3 veces mayor con un impacto mínimo en la precisión para esta aplicación, lo que la convierte en una elección pragmática para la escala.

Para mejorar aún más la capacidad de búsqueda, se emplea Amazon Nova Pro (o el más nuevo y rentable Nova 2 Lite) para generar de 10 a 15 etiquetas descriptivas por vídeo a partir de una taxonomía predefinida. Este enfoque dual asegura que el contenido sea descubrible tanto a través de la similitud semántica como de la coincidencia de palabras clave tradicional. Estos embeddings se almacenan en un índice k-NN de OpenSearch, optimizado para la búsqueda de similitud vectorial, mientras que las etiquetas descriptivas se indexan en un índice de texto separado. Esta separación permite consultas flexibles y eficientes. La canalización gestiona los límites de concurrencia de Bedrock (30 trabajos concurrentes por cuenta) a través de una sólida cola de trabajos y un mecanismo de sondeo, lo que garantiza un procesamiento continuo y conforme.

A continuación, se muestra una representación visual de este sofisticado proceso de ingesta:

Figura 1: Canalización de ingesta de vídeo que muestra el flujo desde el almacenamiento de vídeo en S3 a través de Nova Multimodal Embeddings y Nova Pro a los índices duales de OpenSearch

Potenciando Diversas Capacidades de Búsqueda de Vídeo

La arquitectura de búsqueda está diseñada para la versatilidad, ofreciendo múltiples modos de descubrimiento de contenido:

Búsqueda de texto a vídeo: Los usuarios pueden introducir consultas en lenguaje natural, como "una toma de dron de una ciudad bulliciosa por la noche" o "un primer plano de un chef preparando una comida gourmet". El sistema convierte estas consultas en embeddings, luego utiliza el índice k-NN de OpenSearch para encontrar segmentos de vídeo o vídeos completos que coincidan semánticamente con la descripción, incluso si las palabras exactas no están presentes en ningún metadato. Esto es ideal para el descubrimiento de contenido intuitivo y la creación de guiones gráficos.
Búsqueda de vídeo a vídeo: Para escenarios en los que un usuario tiene un videoclip y desea encontrar contenido similar, este modo sobresale. Al comparar los embeddings del vídeo de entrada directamente con los del índice k-NN de OpenSearch, el sistema puede identificar contenido visual y audiblemente análogo. Esto es invaluable para identificar metraje B-roll, asegurar la consistencia del contenido o descubrir obras derivadas.
Búsqueda híbrida: Combinando lo mejor de ambos mundos, la búsqueda híbrida integra la similitud vectorial con la coincidencia de palabras clave tradicional. La solución propuesta utiliza un enfoque ponderado (por ejemplo, 70% de similitud vectorial y 30% de coincidencia de palabras clave). Esto asegura una alta precisión y relevancia, permitiendo que metadatos específicos guíen la búsqueda mientras que la comprensión semántica proporciona amplias coincidencias contextuales. Este enfoque es particularmente efectivo para consultas complejas que se benefician tanto de etiquetas precisas como de la comprensión conceptual.

Figura 2: Arquitectura de búsqueda de vídeo que demuestra tres modos de búsqueda: de texto a vídeo, de vídeo a vídeo y búsqueda híbrida que combina k-NN y BM25

Implementación Rentable y Requisitos Previos

La implementación de un data lake de IA tan sofisticado requiere una cuidadosa consideración de la infraestructura y los costos, que AWS ha optimizado para la eficiencia. El costo total para procesar los extensos conjuntos de datos, aproximadamente 8,480 horas de contenido de vídeo, ascendió a un total estimado para el primer año de $27,328 (con OpenSearch bajo demanda) o $23,632 (con instancias reservadas de OpenSearch Service).

El desglose de la ingesta destaca los principales factores de costo:

Cómputo de Amazon EC2: $421 (4 instancias spot c7i.48xlarge durante 41 horas)
Embeddings Multimodales de Amazon Bedrock Nova: $17,096 (30.5M segundos a $0.00056/segundo precio por lotes)
Etiquetado con Nova Pro: $571 (792K vídeos, aproximadamente 600 tokens/vídeo en promedio)
Amazon OpenSearch Service: $9,240 (anual bajo demanda) o $5,544 (anual reservado)

Requisitos previos para la implementación: Para replicar o adaptar esta solución, necesitará:

Una cuenta de AWS con acceso a Amazon Bedrock en us-east-1.
Python 3.9 o posterior.
Interfaz de Línea de Comandos de AWS (AWS CLI) configurada con las credenciales apropiadas.
Un dominio de Amazon OpenSearch Service (se recomienda r6g.large o superior), versión 2.11 o posterior, con el complemento k-NN habilitado.
Un bucket de Amazon S3 para el almacenamiento de vídeos y los resultados de los embeddings.
Permisos de AWS Identity and Access Management (IAM) para Amazon Bedrock, OpenSearch Service y Amazon S3.

La solución aprovecha servicios y modelos específicos de AWS:

Amazon Bedrock con amazon.nova-2-multimodal-embeddings-v1:0 para embeddings.
Amazon Bedrock con us.amazon.nova-pro-v1:0 o us.amazon.nova-2-lite-v1:0 para etiquetado.
Amazon OpenSearch Service 2.11+ con el complemento k-NN.
Amazon S3 para almacenamiento.

Implementando la Solución de Búsqueda de Vídeo Multimodal

Comenzar con esta arquitectura implica un enfoque estructurado para configurar su entorno AWS. El primer paso crucial es establecer los permisos necesarios.

Paso 1: Crear Roles y Políticas de IAM

Deberá crear un rol de IAM que otorgue a su aplicación o servicio la autoridad para interactuar con los diversos componentes de AWS. Este rol debe incluir permisos para invocar modelos de Amazon Bedrock (tanto para la generación de embeddings como para el etiquetado), escribir datos en índices de OpenSearch y realizar operaciones de lectura/escritura en los buckets de Amazon S3 donde residen su contenido de vídeo y los resultados procesados.

Aquí hay un ejemplo de una estructura de política de IAM fundamental:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:StartAsyncInvoke",
        "bedrock:GetAsyncInvoke",
        "bedrock:List"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::your-video-bucket/*",
        "arn:aws:s3:::your-video-bucket"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "es:ESHttpPost",
        "es:ESHttpPut",
        "es:ESHttpDelete",
        "es:ESHttpGet"
      ],
      "Resource": "arn:aws:es:us-east-1:*:domain/your-opensearch-domain/*"
    }
  ]
}

Esta política otorga permisos específicos esenciales para el funcionamiento de la canalización. Recuerde reemplazar los marcadores de posición como your-video-bucket y your-opensearch-domain con los nombres reales de sus recursos. Después de la configuración de IAM, continuaría con la configuración de sus buckets S3, la configuración de su dominio de OpenSearch Service con k-NN habilitado y el desarrollo de la lógica de orquestación que aprovecha las API de Bedrock para la ingesta. Este marco robusto garantiza que las empresas de medios y entretenimiento puedan administrar, descubrir y monetizar de manera eficiente sus crecientes bibliotecas de contenido, marcando un salto significativo en la inteligencia del contenido. Esta solución integral es un ejemplo de cómo las capacidades modernas de IA, particularmente en la comprensión multimodal, están redefiniendo los estándares de la industria para la gestión y accesibilidad del contenido. Es un testimonio del poder de integrar modelos de IA avanzados con infraestructura en la nube escalable para resolver desafíos de IA Empresarial del mundo real, fomentando avances similares a los vistos en los flujos de trabajo de IA agéntica de GitHub.

Fuente original

https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

Preguntas Frecuentes

What is a multimodal AI data lake for media and entertainment workloads?

A multimodal AI data lake for media and entertainment is an advanced system designed to store, process, and enable intelligent search across vast collections of video content. Unlike traditional keyword-based systems, it leverages AI models, specifically multimodal embeddings, to understand the nuanced meaning and context within audio and visual data. This allows for semantic search capabilities, where users can query content using natural language descriptions or by providing another video, moving beyond simple tags to find relevant moments or entire videos based on their actual content. AWS's solution utilizes services like Amazon Nova for embedding generation and Amazon OpenSearch Service for efficient storage and retrieval of these high-dimensional vectors, making it ideal for large-scale content libraries.

How does the video ingestion pipeline handle large-scale datasets?

The video ingestion pipeline detailed in the article is engineered for massive scale, demonstrating processing of nearly 800,000 videos totaling over 8,480 hours of content. It employs a distributed architecture using multiple Amazon EC2 instances (e.g., c7i.48xlarge) to parallelize video processing. Key to its efficiency is the asynchronous API of Amazon Nova Multimodal Embeddings, which segments videos into optimal chunks (e.g., 15-second segments) and generates 1024-dimensional embeddings. To manage Bedrock's concurrency limits, the pipeline implements a job queue with polling, ensuring continuous processing. Additionally, Amazon Nova Pro (or Nova Lite) is used to generate descriptive tags, further enriching the metadata. These embeddings and tags are then efficiently indexed into Amazon OpenSearch Service's k-NN and text indices respectively, preparing the data for rapid search.

What types of video search capabilities does this solution enable?

This multimodal AI data lake solution provides three powerful video search capabilities, significantly enhancing content discovery. First, **Text-to-video Search** allows users to input natural language queries (e.g., 'a person surfing at sunset') which are then converted into embeddings and matched semantically against video content, going beyond exact keyword matches. Second, **Video-to-video Search** enables users to find similar video segments or entire videos by comparing their embeddings directly, useful for content recommendations or identifying duplicates. Third, **Hybrid Search** combines the strengths of both semantic vector similarity and traditional keyword matching (e.g., 70% vector, 30% keyword) for maximum accuracy and relevance, especially when dealing with complex queries that benefit from both contextual understanding and specific metadata.

Which AWS services are critical for building this multimodal embedding solution?

Several core AWS services are critical for constructing this scalable multimodal embedding solution. At its heart are **Amazon Bedrock** and its **Nova Multimodal Embeddings** for generating high-dimensional vector representations from video and audio, and **Nova Pro** (or **Nova Lite**) for intelligent tagging. **Amazon OpenSearch Service** (specifically with its k-NN plugin) serves as the scalable vector database to store and query these embeddings, alongside a traditional text index for metadata. **Amazon S3** (Simple Storage Service) is essential for storing the raw video files and the outputs of the embedding process. **Amazon EC2** provides the compute power for orchestrating the ingestion pipeline and managing the large-scale processing of video data. Additionally, **AWS IAM** is vital for securing access and permissions across these integrated services.

What are the cost considerations for deploying such a large-scale multimodal video search system?

Deploying a large-scale multimodal video search system, as demonstrated by the processing of over 8,000 hours of video, involves significant but manageable costs. The article provides a detailed breakdown, estimating a first-year total cost of approximately $23,632 to $27,328. This cost is primarily divided into two components: one-time ingestion costs and ongoing annual Amazon OpenSearch Service costs. Ingestion is dominated by Amazon Bedrock Nova Multimodal Embeddings usage, charged per second of processed video, and Nova Pro tagging. Amazon EC2 compute for orchestration also contributes but is comparatively smaller. OpenSearch Service costs can be optimized by using Reserved Instances over on-demand pricing. Careful planning and monitoring of resource usage, especially Bedrock API calls and OpenSearch cluster sizing, are key to managing and optimizing these expenditures.

Why is semantic search using multimodal embeddings superior to traditional keyword search for video content?

Semantic search, powered by multimodal embeddings, offers a profound advantage over traditional keyword search for video content by enabling a deeper, contextual understanding. Keyword search is limited to exact matches of words and phrases, often failing to capture synonyms, related concepts, or the visual and auditory nuances of video. For instance, searching for 'people talking' might miss a scene where individuals are silently communicating through gestures. Multimodal embeddings, however, convert the rich information from both audio and video into dense numerical vectors. These vectors capture the meaning, style, and context, allowing for queries based on conceptual similarity rather than just lexical matches. This means users can find relevant content even if the exact keywords aren't present, or describe a visual scene using natural language, significantly improving content discovery and relevance in large video archives.

How does the Amazon Nova family of models contribute to this solution?

The Amazon Nova family of models plays a central role in enabling this advanced multimodal video search solution. Specifically, **Amazon Nova Multimodal Embeddings** is the backbone for transforming raw video and audio into actionable high-dimensional vectors (embeddings). It intelligently segments videos and extracts combined audio-visual features, allowing for sophisticated semantic comparisons. This model is crucial for both text-to-video and video-to-video search functionalities. Additionally, **Amazon Nova Pro** (or the more cost-effective **Nova Lite**) is utilized for generating descriptive tags. These tags enrich the video metadata, enabling hybrid search scenarios where both conceptual similarity and specific keywords can be used to refine search results. Together, these Nova models empower the system to understand, categorize, and make searchable the complex information contained within video content.

What are the benefits of using OpenSearch Service's k-NN index in this architecture?

Amazon OpenSearch Service's k-NN (k-Nearest Neighbor) index is a cornerstone of this multimodal video search architecture, providing the capability to efficiently store and query high-dimensional vector embeddings. The primary benefit is enabling rapid and accurate semantic search. When a query (text or video) is converted into an embedding, the k-NN index can quickly find the 'k' most similar video embeddings within the vast dataset. This is far more efficient than traditional database lookups for vector similarity. It allows for real-time semantic search across millions of video segments. By integrating seamlessly with other OpenSearch capabilities, it also facilitates hybrid search, combining vector similarity with traditional text-based filtering and scoring, ensuring a powerful and flexible search experience that scales with the size of the media library.

Mantente Actualizado

Recibe las últimas noticias de IA en tu correo.