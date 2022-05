Google, con su proyecto Imagen, quiere competirle a Dalle-2, que es un sistema diseñado para generar imágenes a partir de descripciones escritas por los usuarios, con resultados de gran realismo.

Google presentó su proyecto de IA como un modelo de difusión de texto a imagen, el cual plantea una alternativa a la IA de OpenAI, Dalle-2. Imagen es capaz de crear imágenes fotorrealistas a partir de textos descriptivos.

Imagen está construido a partir de grandes modelos lingüísticos para lograr un mejor entendimiento de la descripción, y crea una imagen que se adecúe con mayor eficiencia a las descripciones realizadas.

Uno de los principales descubrimientos que han realizado en el desarrollo de Imagen, es que la integración de amplios modelos de lenguaje aumenta la fidelidad y la alineación imagen-texto, mucho más que el aumentar el tamaño del modelo de difusión de imágenes. Así, los modelos de lenguaje genéricos de gran tamaño, los cuales están pre entrenados en la interpretación de corpus de textos (serie de fragmentos de lenguaje estructurados), son ideales para las funciones de este proyecto de IA. Además, permiten conseguir imágenes de alta calidad y relación con el texto como las que hemos visto.

Imagen creada a partir de «Un simpático corgi vive en una casa hecha de sushi»

Google también publicó un DrawBench. Su finalidad es servir de guía y comparativa, siendo un punto de referencia de la aceptación de Imagen, frente a los otros motores de IA para la creación de imágenes a partir de texto en el mercado, como Dalle-2 y VQ-GAN+CLIP.

Tanto Google como OpenAI, son conscientes de las amplias posibilidades de uso, y mal uso, que estos nuevos modelos de difusión pueden ofrecer. Por ello se ha dedicado a trabajar de manera cerrada en sus respectivas tecnologías. En el caso de Dalle-2 es posible solicitar probar la IA desde un formulario, mientras que con Imagen han decidido mantenerla completamente aislada. Por lo tanto, se ha decidido no publicar ninguna clase de código o demostración pública sobre la generación de las imágenes, indicó Marketing4Ecommerce.

AI can unlock joint human/computer creativity! Imagen is one direction we are pursuing:https://t.co/LTlE3pqq4W"A high contrast portrait of a very happy fuzzy panda dressed as a chef in a high end kitchen making dough. There is a painting of flowers on the wall behind him." pic.twitter.com/SrqEv9jeHf — Jeff Dean (@??) (@JeffDean) May 24, 2022