IA: qué actor fallecido le pone voz a audiolibros

Gracias al avance de la inteligencia artificial, el actor Edward Herrmann, que murió en 2014, le pone voz a los audiolibros más recientes

Por iProUP

Innovación

14.04.2023 • 09:05hs • Innovación

Es posible que no estés familiarizado con el nombre de Edward Herrmann, pero si te mencionan que él personificaba al abuelo en la serie "Las chicas Gilmore", es probable que su nombre resulte más reconocido.

Aparte de su carrera como actor, Herrmann se destacó por ser un narrador muy productivo de audiolibros.

Si bien falleció en el año 2014, su voz continúa siendo utilizada en las producciones más actuales gracias a la ayuda de la inteligencia artificial.

Según informó The Wall Street Journal (WSJ), la startup de inteligencia artificial DeepZen creó el último trabajo del "abuelo Gilmore" como narrador.

Para llevar a cabo este proyecto, la empresa utilizó grabaciones previas de Herrmann, previa autorización de su familia.

La compañía afirmó que son capaces de reproducir sonidos y entonaciones.

Edward Herrmann, el actor que falleció en 2014 pero su voz continúa siendo utilizada.

Rory Herrmann, hijo del actor, expresó su sorpresa al escuchar la voz de su padre en el trabajo generado por DeepZen. Según él, este es un excelente medio para preservar el legado de su padre.

La inteligencia artificial generativa

Gracias a la inteligencia artificial generativa, que se encuentra en auge con la llegada de ChatGPT, permitió realizar este proyecto.

Según IEBS Business School, esta tecnología pertenece a la categoría de aprendizaje automático conocida como machine learning.

Es capaz de generar contenido completamente nuevo y original en una variedad de formas, que van desde música y arte hasta mundos virtuales de todo tipo, así como texto, imágenes, voz, código e incluso vídeos.

Además agregaron que un GPT es un modelo de machine learning conocido como aprendizaje profundo que utiliza técnicas de lógica para crear textos similares a los generados por los seres humanos.

Estos modelos se conocen como "generativos" porque son capaces de generar texto nuevo basándose en la entrada que reciben.

La inteligencia artificial generativa pertenece a la categoría de aprendizaje automático conocida como machine learning.

A su vez, se les llama "preentrenados" porque se les entrena con un corpus de datos de texto amplio antes de ajustarlos para tareas específicas, y se les denomina "transformadores" porque emplean una arquitectura de red neuronal basada en transformadores para procesar el texto de entrada y generar texto de salida.

Mejor para obras de no ficción

Cuando se produce un avance tecnológico, especialmente si está relacionado con la inteligencia artificial generativa, suele surgir un debate acerca de los empleos que podría reemplazar.

Scott Brick, un narrador de audiolibros con más de 1.000 obras en su haber, comentó en una entrevista con WSJ que, aunque estas voces generadas por IA son realistas, carecen de alma, lo que las hace más adecuadas para narrar obras de no ficción.

Melissa Papel, una actriz parisina, relató que grabó 8 horas de contenido para DeepZen.

Según sus declaraciones, sabía que su voz sería utilizada para enseñar al software a hablar como un ser humano, pero no se dio cuenta de que también podría ser utilizada para generar palabras que ella no pronunció.

DeepZen ya colaboró con más de treinta actores profesionales, a los que les ofrece una tarifa fija junto con una variable que depende de los ingresos generados.

Debido al avance de la inteligencia artificial, muchos se preguntan que pasará con los puestos de trabajo que podría reemplazar.

La empresa confirmó que firmó acuerdos con 35 editoriales en Estados Unidos y en el extranjero.

Microsoft también apuesta por la IA generativa

La empresa tecnológica multinacional estadounidense está haciendo una gran inversión en IA generativa mediante el desarrollo de VALL-E, un nuevo modelo de inteligencia artificial de texto a voz.

Esta tecnología tiene la capacidad de aprender la voz de un interlocutor específico a partir de una grabación de tan solo tres segundos, y luego sintetizar la voz para decir cualquier cosa que se desee.

Como ya se detalló en Business Insider España, recurre a un modelo de lenguaje de códec natural, el mismo que Meta implementó en octubre de 2022, a través de un tipo de tecnología llamada EnCodec.

El nuevo modelo utiliza una técnica que divide la información en fragmentos pequeños llamados tokens.

Utiliza datos de entrenamiento de IA para comparar lo que ya aprendió con la forma en que se utiliza una voz específica. En resumen, puede imitar la voz de cualquier persona sin dificultad, siempre que tenga acceso a una grabación de 3 segundos de esa voz.