Un grupo de científicos han querido mejorar la efectividad de la Inteligencia Artificial existente para la lectura de los labios de las personas, creando un modelo de aprendizaje automático llamado Lip by Speech (LIBS).

En LIBS han participado investigadores de Alibaba, la Universidad de Zhejiang y el Instituto de Tecnología Stevens. El sistema mejora el nivel de precisión de lectura de los labios con respecto a modelos anteriores, haciendo uso de personas disponibles a través de los vídeos, para lo cual han tenido en cuenta las características en los que se fijan los reconocedores de habla para servir a modo de pistas complementarias para su reconocimiento.

Para su funcionamiento, LIBS genera información útil de audio de los vídeos de las personas que hablan en ellos a múltiples escalas, alineando posteriormente estos datos obtenidos con los datos del vídeo identificando la correspondencia entre ellos. Para mejorar el reconocimiento, utiliza finalmente un sistema de filtrado que mejora las características del mismo.

Los componentes del reconocimiento de voz y lectura de los labios en LIBS utilizan una arquitectura de secuencia a secuencia basada en la atención, asignando entradas de vídeo a etiquetas y valores. Los investigadores entrenaron a LIBS utilizando está arquitectura junto a las bases de datos LRS2 y CMLR, que disponen de 45.000 oraciones habladas en inglés de la BBC y de 100.000 oraciones en mandarín chino de China Network Television, respectivamente.

Te puede interesar