Investigadores del MIT crearon una inteligencia artificial capaz de imaginar el rostro de un individuo a partir de una grabación de su voz. Este algoritmo de aprendizaje automático, llamado Speech2Face, fue entrenado usando millones de clips de audio de más de 100.000 hablantes distintos, muchos de ellos procedentes de vídeos educativos de Youtube.

Según explican los investigadores a Xataka, esta IA utiliza el dataset para determinar el vínculo existente entre las señales vocales y determinados rasgos faciales. Y es que ambos vienen determinados por factores como la edad, el sexo, la estructura ósea de la nariz, la forma de la boca o el tamaño de los labios.

El funcionamiento del algoritmo gira en torno al uso de dos componentes: un codificador (que extrae y guarda el espectrograma de las ondas de audio, reconociendo una serie de características clave del mismo) y un decodificador (que en base a las mencionadas características genera una imagen del rostro, representado de frente y con gesto neutro).

A pesar de que cuanto más tiempo entrena con la voz humana, más sencillo es para la IA adivinar el rostro de alguien. Pero Speech2Face no puede hacer milagros: aunque, al basarse en fotos, sus representaciones son fotorrealistas, también son demasiado genéricas como para soñar con identificar a una persona específica.

Pero sí permite establecer con suficiente precisión un perfil con el etnia, sexo y edad del sujeto. Ya existía tecnología capaz de estimar estos dos últimos factores, pero el componente étnico es una novedad de Speech2Face.

Sin embargo, el algoritmo todavía presenta algunos sesgos que evidencian que el dataset en el que se ha basado su entrenamiento es algo incompleto.

Por ejemplo: Speech2Face genera imágenes de hombres blancos cuando oye asiáticos hablando inglés, pese a que cuando éstos pasan a hablar chino, sí identifica su etnicidad correctamente.

"Si cierto idioma no aparece en los datos de entrenamiento, nuestras reconstrucciones no capturarán bien los atributos faciales que podrían estar correlacionados con ese lenguaje".

Se especula con que un posible uso comercial de este algoritmo sería la posibilidad de generar una imagen representativa de nuestro interlocutor cuando estemos manteniendo una llamada telefónica.

Te puede interesar