El Modelo SyncNet: Sincronización Labial Automatizada Explicada

Los problemas de sincronización entre audio y video pueden ser más que una simple molestia; representan un desafío real en la producción de video, la radiodifusión y la comunicación en tiempo real. El artículo original publicado en Towards Data Science, y que tomaremos como base para el presente artículo, aborda este problema de frente con un enfoque self-supervised que detecta y corrige automáticamente los problemas de sincronización audiovisual sin necesidad de anotaciones manuales.

Este análisis profundiza en el concepto de SyncNet, un modelo que, basándose en el artículo original, no solo soluciona inconvenientes de sincronización, sino que también identifica a los hablantes en entornos con múltiples personas, aprendiendo la correlación natural entre los movimientos labiales y los sonidos del habla.

Aplicaciones Clave de SyncNet

Las aplicaciones derivadas de un ConvNet entrenado son de gran importancia. Estas incluyen:

Detección de errores de sincronización labial en videos: Si el desfase de sincronización se encuentra dentro del rango de -1 a +1 segundo (un rango adaptable pero generalmente suficiente para la transmisión de audio y video en TV), se puede determinar la magnitud del desfase. Por ejemplo, si se detecta que el audio se desfasa 200 ms con respecto al video, se puede ajustar el audio 200 ms hacia adelante para corregir el problema de sincronización.
Identificación del hablante en escenas con múltiples rostros: SyncNet puede determinar qué persona está hablando en un momento dado.
Lectura de labios: El modelo tiene el potencial de interpretar el habla a partir de los movimientos labiales.

El Enfoque Self-Supervised

El entrenamiento self-supervised elimina la necesidad de anotaciones manuales. El modelo aprende a partir de pares de datos positivos (audio y video sincronizados) y negativos (audio y video desincronizados) generados automáticamente.

Para entenderlo mejor, imaginemos que el modelo aprende por sí solo a distinguir entre una canción bien interpretada (sincronizada) y una versión donde la música y la voz no encajan.

La clave aquí es asumir que la mayor parte de los datos iniciales están sincronizados. A partir de ahí, se crean pares negativos desplazando el audio unos segundos. Esto permite entrenar con grandes cantidades de datos, siempre y cuando la fuente original no tenga problemas de sincronización.

Arquitectura de Red: CNN de Doble Flujo

La arquitectura de SyncNet se basa en una CNN (Red Neuronal Convolucional) de doble flujo, con dos ramas separadas para el audio y el video. Cada flujo procesa 0.2 segundos de entrada.

Flujo de Audio: Recibe 0.2 segundos de audio.
Flujo de Video: Recibe 0.2 segundos de video.

Ambos flujos utilizan arquitecturas CNN, que son especialmente adecuadas para datos 2D. Aunque el uso de CNN para video (frames/imágenes) es intuitivo, también se aplica una red basada en CNN para el audio.

Preprocesamiento de Datos de Audio

El audio sin procesar de 0.2 segundos se somete a una serie de pasos para generar una matriz MFCC de 13x20. Los coeficientes DCT (13) representan las características del audio, mientras que la dimensión temporal (20) se deriva de la frecuencia MFCC de 100 Hz. Esta matriz se alimenta al flujo de audio CNN, que produce un embedding de 256 dimensiones representando el audio de 0.2 segundos.

Preprocesamiento de Datos de Video

El CNN de video espera una entrada de 111x111x5 (ancho x alto x tiempo), es decir, 5 frames de una imagen en escala de grises de la boca. Con una velocidad de 25 fps, 0.2 segundos equivalen a 5 frames. El video sin procesar pasa por un preprocesamiento para convertirlo en esta representación, que luego se alimenta al CNN, generando un embedding de 256 dimensiones.

El preprocesamiento del audio es más simple que el del video. El objetivo es obtener un clip de video donde solo aparezca una persona hablando, sin cambios de escena. Para ello, se aplican técnicas de detección de escenas, detección facial, seguimiento facial y recorte de la región de la boca.

Aprendizaje del Espacio de Embedding Conjunto

La red aprende un espacio de embedding conjunto, donde los embeddings de audio y video se representan en un espacio común. Los pares de audio y video sincronizados se ubicarán cerca uno del otro, mientras que los pares no sincronizados estarán más alejados. La distancia euclidiana entre embeddings sincronizados será menor, y viceversa.

Función de Pérdida y Refinamiento del Entrenamiento

La función de pérdida utilizada es la pérdida contrastiva. Para un par positivo (audio y video sincronizados), se minimiza el cuadrado de la distancia euclidiana entre los embeddings. Para pares negativos, se minimiza max(margen – distancia euclidiana, 0)².

Además, se refina el conjunto de datos de entrenamiento eliminando los falsos positivos (datos ruidosos). Esto se logra entrenando inicialmente SyncNet con datos ruidosos y eliminando los pares positivos que no superan un cierto umbral. Los falsos positivos pueden deberse a videos doblados, personas hablando detrás del hablante principal o desfases de sincronización.

Este proceso de refinamiento se asemeja a la corrección de un examen: primero se evalúa a todos los estudiantes, y luego se revisan aquellos que obtuvieron una calificación dudosa para eliminar posibles errores.

Inferencia y Aplicaciones

Una vez entrenada, la red se utiliza para inferencia y experimentación.

Evaluación de Pares Positivos y Negativos: Se utiliza un conjunto de datos de prueba con pares de audio y video positivos y negativos. El modelo debe producir valores bajos (distancia euclidiana mínima) para los pares positivos y valores altos para los pares negativos.
Determinación del Desfase (Offset): El modelo puede determinar el desfase de sincronización, indicando si el audio se adelanta o se retrasa con respecto al video (por ejemplo, "el audio se adelanta 200 ms"). Ajustar el audio y el video según el desfase determinado debería solucionar el problema de sincronización.

La confianza en la determinación del desfase se mide mediante un puntaje de confianza AV. Este puntaje indica la certeza del modelo en su predicción.

Ejemplo Práctico: Cálculo del Desfase y el Puntaje de Confianza

Supongamos que tenemos un clip de 10 segundos con un desfase de 300 ms donde el audio se adelanta al video. Para determinar este desfase con SyncNet, tomamos diez videos de 0.2 segundos (v1, v2, ..., v10).

Para calcular el puntaje de confianza para v5, por ejemplo, se calcula la distancia euclidiana entre v5 y varios fragmentos de audio (utilizando una ventana deslizante). El muestreo de audio para v5 se realiza desde 3.5s hasta 5.7s (±1s de v5), lo que da un rango de búsqueda de 2200ms (2.2 segundos).

Con ventanas superpuestas de 200ms y un salto de 100ms, obtenemos 21 ventanas. Para cada ventana, se calcula la distancia euclidiana. El desfase para v5 se determina por la ventana con la distancia mínima. El puntaje de confianza se calcula como la mediana de las distancias menos la distancia mínima.

Finalmente, el desfase para todo el clip se calcula promediando los desfases de cada ventana, ponderando por el puntaje de confianza.

Identificación del Hablante en Escenas con Múltiples Personas

SyncNet también puede identificar al hablante en escenas con múltiples personas. En lugar de deslizar el audio temporalmente para un rostro, se evalúan todos los rostros al mismo tiempo. Los movimientos de la boca de cada rostro se comparan con el audio actual para generar puntajes de confianza. El rostro que corresponde al hablante mostrará un puntaje de confianza alto, mientras que los rostros silenciosos mostrarán puntajes bajos.

Conclusión

SyncNet demuestra que, en ocasiones, las mejores soluciones surgen al replantear el problema. En lugar de requerir el tedioso etiquetado manual de errores de sincronización, utiliza inteligentemente la suposición de que la mayor parte del contenido de video comienza sincronizado correctamente, convirtiendo los videos regulares en un conjunto de datos de entrenamiento ilimitado. La belleza radica en su simplicidad: entrenar dos CNN para crear embeddings donde los pares de audio y video sincronizados se agrupan de forma natural. Con una precisión del 99% al promediar varias muestras y la capacidad de manejar todo, desde la televisión de transmisión hasta los videos salvajes de YouTube, este enfoque ha demostrado ser notablemente robusto. Ya sea que esté solucionando problemas de sincronización en la postproducción o construyendo la próxima aplicación de videoconferencia, los principios detrás de SyncNet ofrecen un modelo práctico para resolver problemas de alineación audiovisual del mundo real a escala.

Referencias

The SyncNet Research Paper, Clearly Explained: https://towardsdatascience.com/syncnet-paper-easily-explained/
Implementación en GitHub: https://github.com/joonson/syncnet_python
Página oficial del proyecto: https://www.robots.ox.ac.uk/~vgg/software/lipsync/

geek-cloud

Buscar este blog