OpenAI, la empresa que desarrolló el innovador chatbot de inteligencia artificial (IA) generativa conocido como ChatGPT, anunció una nueva versión de su popular herramienta capaz de "ver, oir y escuchar" en voz alta con los usuarios.
Hasta ahora, la interacción con las diversas ediciones de ChatGPT se limitaba a la comunicación escrita, pero a partir de "dos semanas" los suscriptores premium podrán entablar diálogos en voz alta y escuchar las respuestas del sistema.
Inteligencia artificial: ChatGPT podrá "ver, oir y hablar"
Además, podrán enviar imágenes, fotos, capturas de pantalla y documentos al chat con el fin de obtener respuestas específicas. En cuanto a los usuarios que utilicen la versión gratuita de esta herramienta, podrán aprovechar estas nuevas actualizaciones "poco después", según indicó OpenAI.
"La voz y la imagen te brindan más formas de usar ChatGPT en tu vida. Cuando estés en casa, saca fotografías de tu refrigerador y despensa para saber qué hay para cenar (y haz preguntas para obtener una receta paso a paso)", indicó la empresa en un comunicado.
En términos de ilustrar las aplicaciones de la herramienta de voz, la empresa mencionó que esta puede ser utilizada para "contar un cuento o resolver un debate".
En la actualidad, este asistente de voz, que guarda similitudes con los asistentes Alexa, de Amazon, y Siri, de Apple, estará disponible para dispositivos iOS y Android, aunque no estará disponible para computadoras personales.
OpenAI anunció que el chatbot podrá escuchar, ver y hablar.
Los usuarios tendrán la opción de seleccionar entre cinco voces diferentes, si bien la voz predeterminada y la que se utilizó en los ejemplos de hoy es una voz que imita a una mujer joven y de apariencia blanca, siguiendo la pauta común en este tipo de herramientas.
Mediante el uso de Whisper, una herramienta desarrollada por OpenAI que utiliza la inteligencia artificial para transcribir el audio, se realiza la conversión de la voz del usuario en texto.
Posteriormente, la compañía emplea su nuevo modelo de conversión de texto a voz para generar la respuesta del sistema.
"Nuestra nueva tecnología de voz es capaz de crear voces sintéticas realistas a partir de tan solo unos segundos de voz real", apuntó la firma.
Y añadió: "Esto abre las puertas a muchas aplicaciones creativas y da herramientas de accesibilidad. Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude", advirtió.
Además de esto, OpenAI anunció que la plataforma de música Spotify ya aprovecha el potencial de esta tecnología para traducir algunos de sus podcasts a "idiomas adicionales, mientras se conservan las voces originales de los presentadores e invitados".
Inteligencia artificial: Spotify suma esta herramienta para traducir podcasts
Una función que anunció Spotify se da en el entorno del podcasting, que se encuentra al borde de una trasnformación revolucionaria.
Además, la compañía sumará la inteligencia artificial para traducir podcasts.
Gracias a la colaboración entre Spotify y OpenAI, el usuario podrá escuchar su podcaster favorito en su lengua materna sin perder la autenticidad y el tono de su voz original.
Esta herramienta, desarrollada por ambas compañías no solo traduce episodios de podcasts al español, francés y alemán, sino que lo hace conservando la voz característica del creador original.
La promesa que esto conlleva resultó sumamente atractiva: un mundo en el cual las barreras del idioma desaparecen, brindando a oyentes de todo el planeta la oportunidad de acceder a contenidos que anteriormente estaban fuera de su alcance.
Reconocidos nombres del mundo del podcasting, como Dax Shepard, Monica Padman y Lex Fridman, formarán parte del grupo inicial que explorará esta innovadora tecnología.
Para los usuarios en América Latina y España, esta tecnología podría representar la apertura de un nuevo mundo de contenido que antes estaba restringido por las barreras del idioma.
La iniciativa de Spotify, sin lugar a dudas, representa un avance tecnológico que promete transformar la forma en que consumimos contenido.