Es una realidad que casi todos llevamos en nuestro bolsillo al menos una cámara con la que capturar y compartir imágenes y vídeos. En 2017, se compartían diariamente a  través de Whatsapp 4 500 millones de fotos y mil millones de vídeos. Y en mayo de 2019, se subieron 500 horas de vídeo a YouTube cada minuto. Esto equivale a 720 000  horas de nuevo contenido al día.

Estas cantidades nos hacen darnos cuenta de la omnipresencia de las imágenes y vídeos en nuestros días. Pero, ¿solo están las cámaras en nuestros bolsillos? Pensemos  en un hospital (y las pruebas médicas de imagen), en un coche (y el lector de señales de tráfico y detector de líneas de la calzada), en un partido de fútbol (y los  cambios de punto de vista de las jugadas clave) y en el rover Perseverance de la NASA (intentando aterrizar y moverse por Marte): todos ellos incorporan, al menos, una  cámara.

Los efectos de TikTok y los filtros de Instagram, el juego Pokémon GO, las aplicaciones Google Fotos y Lens, los vídeos deepfake, el ojo de halcón en tenis, un lector  de matrículas de coche, etc. Todas estas tecnologías tienen algo en común: necesitan entender el contenido visual de las imágenes para ofrecer diferentes  funcionalidades en ámbitos cotidianos tan diversos como el ocio, el deporte o el control de tráfico.

¿Qué es la visión artificial?

Si le pidiese al lector nombrar alguno de los objetos que aparecen en la imagen que sigue a este párrafo, estoy seguro que sin ningún esfuerzo podría enumerar una  lista de palabras como "personas", "niños", "comida", "vasos", "sillas", "ventanas", etc. Y probablemente podría llegar a la conclusión de que es una familia que va a  almorzar. Sin duda, esto es una tarea sencilla incluso para un niño.

La visión artificial da un paso más allá de lo que puede hacer la conjunción ojo/cerebro humano

Nos planteamos entonces la siguiente pregunta: si mostramos esta imagen a un ordenador, ¿podría éste llegar a la misma conclusión a la que llegamos las personas sin  esfuerzo aparente?

La cuestión es que una imagen no es más que una matriz (números organizados en filas y columnas) de valores numéricos que están representando diferentes colores. Y  pretendemos que, a partir de únicamente esa representación, un ordenador sea capaz de dar sentido (humano) a ese contenido. Para lograr este objetivo (nada sencillo)  entra en juego la visión artificial o visión por ordenador.

La visión artificial es un campo de la inteligencia artificial que tiene como objetivo entrenar a los ordenadores para que sean capaces de interpretar y entender el  mundo visual. En cierto modo, se pretende replicar el complejo sistema visual humano usando máquinas.

El aprendizaje profundo al rescate

Multitud de aplicaciones que usamos hoy en día sobre imágenes o vídeos funcionan gracias a un elemento común llamado aprendizaje profundo (o deep learning, en inglés).  El aprendizaje profundo es un subcampo de la inteligencia artificial íntimamente relacionado con el aprendizaje máquina (o machine learning, en inglés). En concreto,  se intenta simular el comportamiento del sistema nervioso humano para hacer cálculos computacionales, es decir, se definen neuronas artificiales que están  interconectadas entre ellas para procesar información.

A diferencia de otros subcampos de la inteligencia artificial, en el aprendizaje profundo se pretende que el ordenador aprenda a realizar diversas tareas de forma  automática a partir de grandes conjuntos de datos, esto es, sin proporcionarle reglas explícitas para realizar la tarea deseada. El ordenador aprende patrones comunes  que encuentra en los datos proporcionados para su entrenamiento.

Por ejemplo, como aplicación de visión artificial imaginemos que queremos que un coche sea capaz de identificar automáticamente peatones cruzando la calzada. Para  ello, le proporcionaremos miles de imágenes que contengan peatones cruzando y el ordenador tiene que ser capaz de generalizar sobre qué es un peatón cruzando, y así  poder usarlo en un coche autónomo (como el de Tesla). De esta forma, el vehículo respondería adecuadamente a la situación, reduciendo su velocidad, cambiando la  dirección y activando el freno si es necesario.

Otro ejemplo serían las cámaras de vigilancia o las térmicas, y todo lo que sus algoritmos pueden hacer

La visión artificial al alcance de todos

Una máquina con capacidad de visión es nuestra aliada, ya que es capaz de realizar tareas repetitivas sin cansarse.

En resumen, aunque la visión artificial es un campo de investigación activo, donde aún hay mucho por hacer, ha llegado para quedarse, ayudarnos y hacer más fácil  nuestras vidas.

¿No está convencido aún? Puede abrir Google Lens en su móvil y hacerle una foto a esa planta de su patio o balcón cuyo nombre nunca recuerda. Los algoritmos de la  aplicación podrán ver y reconocer la especie, indicó El Observador de Uruguay.

Te puede interesar