Más artículos

Desarrollan una inteligencia artificial que puede recrear rostros con solo escuchar la voz

Desarrollan una inteligencia artificial que puede recrear rostros con solo escuchar la voz
Según explican los investigadores, esta IA utiliza el dataset para determinar el vínculo existente entre las señales vocales y determinados rasgos faciales
18.06.2019 09.03hs Innovación

Investigadores del MIT crearon una inteligencia artificial capaz de imaginar el rostro de un individuo a partir de una grabación de su voz. Este algoritmo de aprendizaje automático, llamado Speech2Face, fue entrenado usando millones de clips de audio de más de 100.000 hablantes distintos, muchos de ellos procedentes de vídeos educativos de Youtube.

Según explican los investigadores a Xataka, esta IA utiliza el dataset para determinar el vínculo existente entre las señales vocales y determinados rasgos faciales. Y es que ambos vienen determinados por factores como la edad, el sexo, la estructura ósea de la nariz, la forma de la boca o el tamaño de los labios.

El funcionamiento del algoritmo gira en torno al uso de dos componentes: un codificador (que extrae y guarda el espectrograma de las ondas de audio, reconociendo una serie de características clave del mismo) y un decodificador (que en base a las mencionadas características genera una imagen del rostro, representado de frente y con gesto neutro).

Los creadores de esta inteligencia artificial afirman que puede hacerse una idea de cómo es tu cara tan sólo con escuchar tu voz

A pesar de que cuanto más tiempo entrena con la voz humana, más sencillo es para la IA adivinar el rostro de alguien. Pero Speech2Face no puede hacer milagros: aunque, al basarse en fotos, sus representaciones son fotorrealistas, también son demasiado genéricas como para soñar con identificar a una persona específica.

Pero sí permite establecer con suficiente precisión un perfil con el etnia, sexo y edad del sujeto. Ya existía tecnología capaz de estimar estos dos últimos factores, pero el componente étnico es una novedad de Speech2Face.

Sin embargo, el algoritmo todavía presenta algunos sesgos que evidencian que el dataset en el que se ha basado su entrenamiento es algo incompleto.

Por ejemplo: Speech2Face genera imágenes de hombres blancos cuando oye asiáticos hablando inglés, pese a que cuando éstos pasan a hablar chino, sí identifica su etnicidad correctamente.

"Si cierto idioma no aparece en los datos de entrenamiento, nuestras reconstrucciones no capturarán bien los atributos faciales que podrían estar correlacionados con ese lenguaje".

Se especula con que un posible uso comercial de este algoritmo sería la posibilidad de generar una imagen representativa de nuestro interlocutor cuando estemos manteniendo una llamada telefónica.

Enterate lo último sobre economía digital, startups, fintech, innovación corporativa y blockchain
Innovación en tu mail
Suscribite a nuestro newsletter y recibí diariamente las últimas noticias en economía digital, start ups, fintech, innovación corporativa y blockchain.
Más sobre Innovación
Te puede interesar
Recomendadas