IBM desarrolló una nueva plataforma basada en inteligencia artificial, capaz de escribir descripciones de imágenes que analiza.

El desarrollo fue resentado en el documento "Alineación semántica adversa para capturas de imagen mejoradas" que apareció en la Conferencia de 2019 sobre Visión por computadora y Reconocimiento de patrones (CVPR) en Long Beach, California.

En rigor, se trata de un modelo que es capaz de crear de forma automática títulos diversos que parecen haber sido hechos por humanos, diferentes a los generadores secuenciales ya existentes.

Para ello realizan el subtitulado usando fragmentos de escenas en las fotos para componer las oraciones, y a medida que avanza la creación, se observan más detalles y el texto anteriormente escrito.

Para evitar que el resultado sea "demasiado robótico", el equipo de investigación empleó redes neuronales de dos partes que consisten en generadores que producen muestras y discriminadores que intentan distinguir entre las muestras generadas y el mundo real.

Una parte del sistema se encarga de decidir si lo creado es suficientemente natural, y en caso de respuesta negativa, se realiza de nuevo el proceso.

Ahora que ya han realizado pruebas con éxito, quieren que su trabajo siente las bases para nuevos y potentes sistemas de visión artificial, para que los sistemas de IA sean más confiables para su uso como asistentes personales para personas con discapacidad visual y para mejorar su vida diaria.

Te puede interesar