La inteligencia artificial puede generar animaciones desde guiones, detectar baches y grietas en las carreteras, y enseñar a robots de cuatro patas a recuperarse cuando caen. Pero, ¿qué hay de adaptar el estilo de canto de una persona al de otra? Sí, eso también lo pueden hacer.

En un artículo publicado en Arxiv.org ("Unsupervised Singing Voice Conversion"), los científicos de investigación de AI de Facebook y la Universidad de Tel Aviv describen un sistema que convierte directamente el audio de un cantante a la voz de otro. Lo más impresionante es que no se hace bajo supervisión, lo que significa que es capaz de realizar la conversión de datos no clasificados y datos que no se hayan encontrado anteriormente.

El equipo afirma que su modelo fue capaz de aprender a convertir entre cantantes con solo escuchar sus voces cantando de 5 a 30 minutos, gracias en parte a un innovador esquema de capacitación y técnica de aumento de datos.

"[Nuestra tecnología] podría lograr, por ejemplo, a que uno pueda liberarse de algunas de las limitaciones de la propia voz", escribieron los autores del artículo. "La red propuesta no está condicionada por el texto ni por las notas [y no] requiere datos de entrenamiento paralelos entre los distintos cantantes, ni emplea una transcripción del audio para el texto (...) o para las notas musicales (...) Mientras que métodos de corrección de tono existentes (...) corrigen cambios de tono locales, nuestro trabajo ofrece flexibilidad junto con otras características de voz ".

Como explican los investigadores, su método se basa en WaveNet, un autocodificador desarrollado por Google (un tipo de IA que se utiliza para aprender representaciones de conjuntos de datos sin supervisión) que genera modelos a partir de las formas de onda de las grabaciones de audio.

El sistema emplea una traducción inversa, que consiste en convertir una muestra de datos en una muestra objetivo (en este caso, la voz de un cantante en otra) antes de volver a traducirla y ajustar su próximo intento si no coincide con el original. Además, el equipo usó muestras sintéticas que usaban "identidades virtuales" más cercanas al cantante de origen que a otros hablantes.

La IA fue entrenada en dos fases. Primero, se aplicó una función matemática a las muestras de cada cantante por separado, y luego, se generaron muestras de nuevos cantantes mediante la mezcla de incrustaciones de vectores (es decir, representaciones numéricas) de los cantantes de entrenamiento antes del paso de la traducción inversa.

Para aumentar los conjuntos de datos de entrenamiento, los autores transformaron los clips de audio reproduciendo las señales hacia atrás y desplazando imperceptiblemente la fase. "[Se] aumenta por cuatro veces el tamaño del conjunto de datos", afirmaron. "El primer aumento crea una canción sin sentido que, sin embargo, es identificable como el mismo cantante; el segundo aumento crea una señal perceptualmente indistinguible pero novedosa para el entrenamiento ".

En los experimentos, el equipo obtuvo dos conjuntos de datos disponibles públicamente, el corpus del Archivo Digital de Actuaciones Móviles (DAMP, por sus siglas en inglés) de Stanford y el corpus de los Cantos Hablados y Hablados (NUS-48E) de la Universidad Nacional de Singapur, que contiene canciones interpretadas por varios cantantes. Del primero, seleccionaron cinco cantantes con 10 canciones al azar (nueve de las cuales usaron para entrenar el sistema de inteligencia artificial), y del segundo, eligieron 12 cantantes con cuatro canciones para cada cantante, todos los cuales fueron usados para entrenamiento.

Luego, los revisores humanos juzgaron en una escala de 1 a 5 la similitud de las voces generadas con la voz de canto de destino, y utilizaron una prueba automática que incluía un sistema de clasificación para evaluar la calidad de las muestras de manera más objetiva. Los revisores dieron al audio convertido una puntuación promedio de aproximadamente 4 (lo que se considera de buena calidad), mientras que la prueba automatizada encontró que la precisión de identificación de las muestras generadas era casi tan alta como la de las muestras reconstruidas. Se espera que los futuros métodos puedan realizar la conversión con presencia de música de fondo.

Te puede interesar