Los investigadores de inteligencia artificial de openai han creado una red neuronal llamada DALL·EGenera imágenes a partir de descripciones textuales en lenguaje natural.

Hace un par de días he resumido los resultados de IA de 2020 en el mundo del aprendizaje automático. 2021 acaba de comenzar, pero definitivamente estamos viendo uno de los trabajos de IA más importantes del año.

DALL·E es una versión de GPT-3 con 12 mil millones de parámetros, entrenada para generar imágenes a partir de descripciones de texto en un conjunto de datos de pares texto-imagen. Los investigadores encontraron que DALL·E tiene un enorme repertorio de capacidades generativas, incluida la capacidad de crear animales antropomórficos y otros objetos inusuales que combinan propiedades completamente no triviales, como una “silla en forma de aguacate“.

Imagen de sillones en forma de aguacate
Imágenes generadas por DALL·E basadas en la descripción del texto “sillón aguacate”

Podemos decir que ya existían todos los requisitos previos para la creación de DALL·E. El triunfo del año pasado de GPT-3 y la creación exitosa de una red Image GPT capaz de generar imágenes a partir de texto utilizando el modelo de lenguaje transformador GPT-2. Todo ya abordado para crear un nuevo modelo, tomando esta vez como base GPT-3. Ahora DALL · E está mostrando las maravillas nunca antes vistas de manipular conceptos visuales usando lenguaje natural.

Al igual que GPT-3, DALL · E es un modelo de lenguaje transformador que acepta texto e imágenes como una secuencia de hasta 1280 tokens como entrada. El modelo está entrenado para maximizar la probabilidad al generar tokens seguidos uno tras otro.

Además, los empleados de openai expresaron su preocupación de que el nivel de realismo y desempeño de los modelos generativos modernos pueda tener un fuerte impacto en la sociedad. Temen las posibles consecuencias sociales y económicas ambiguas del uso de tales tecnologías.

Echemos un vistazo a ejemplos que hablan por sí mismos. Los investigadores dicen que no utilizaron la supresión de pruebas en absoluto. Los ejemplos son imágenes obtenidas con DALL · E, que utilizan 32 mejores ejemplos de los 512 generados, seleccionados por el ranking CLIP neuronal.

Imágenes generadas por DALL · E
Texto: una colección de gafas sobre la mesa

Lo curioso es que el algoritmo es multimodal y maneja la ambigüedad de las gafas en inglés.

Otro trabajo de la red neuronal DALL·E
Texto: un emoji de un pingüino bebe con un sombrero azul, guantes rojos, camisa verde y pantalones amarillos

DALL-E no solo puede generar una imagen desde cero, sino también regenerar (completar) cualquier área rectangular de una imagen existente, hasta la esquina inferior derecha de la imagen, de acuerdo con la descripción del texto. Como ejemplo, se tomó como base la parte superior de la fotografía del busto de Homero.

Imagen entrante
imagen introducida
Imagen saliente
Imagen saliente procesada por DALL·E

Es especialmente sorprendente que DALL-E haya aprendido el contexto histórico y geográfico. El modelo es capaz de generalizar tendencias en diseño y tecnología. A continuación se muestra un ejemplo de cómo DALL · E genera teléfonos de diferentes décadas del siglo XX.

Imagenes de teléfonos de diferentes décadas
Texto: una foto del teléfono del …

A DALL · E se le pidió que generara una imagen de acuerdo con la siguiente descripción: “sala de estar con dos sillones blancos y una pintura del Coliseo, la pintura está instalada sobre una chimenea moderna”. Resulta que DALL · E puede crear pinturas sobre una amplia variedad de temas, incluidos lugares de la vida real como el Coliseo y personajes de ficción como Yoda. Para cada objeto, DALL · E ofrece muchas opciones. Si bien la pintura casi siempre está presente en la imagen, DALL · E a veces no dibuja la chimenea o el número correcto de sillas.

Texto: una sala de estar con dos sillones blancos y pintura del coliseo. la pintura está montada sobre una chimenea moderna

Nombre del modelo DALL · E es una combinación del nombre del artista Salvador Dali y el robot WALL · E de Pixar. Salió un Vali-Dali tan peculiar. En general, en el mundo de la IA, “inventar” nombres tan originales es una especie de tendencia. Definitivamente es alentador y hace que esta área sea aún más original.

El personaje WALL· E
Buen antiguo traslado del estilo WALL · E a Dalí

Para realzar el surrealismo y estar a la altura de su nombre, se “pidió” a DALL · E que generara animales sintetizados a partir de una variedad de conceptos, incluidos instrumentos musicales, alimentos y artículos para el hogar. Si bien esto no siempre fue exitoso, los investigadores han descubierto que DALL · E a veces toma en cuenta la forma de dos objetos al decidir cómo combinarlos. Por ejemplo, cuando se propone dibujar un “arpa de caracol”.

Imagenes de caracol
Caracol-Arpa. Animales fantásticos y dónde encontrarlos…

Conclusión

DALL · E es un decodificador transformador que acepta tanto texto como imágenes como una única secuencia de tokens (1280 tokens = 256 para texto + 1024 para imágenes) y luego genera imágenes en modo autorregresivo.

¿Que se puede decir? Se acerca la era de la “gran unificación” de los modelos de lenguaje, la visión por computadora y las redes generativas. Lo que estamos viendo ahora ya es sorprendente con sus resultados, sin mencionar cómo tales enfoques pueden cambiar el proceso de generación de contenido.

Lo antes posible, ya prepararé un análisis técnico del modelo DALL · E en sí, dado que los chicos de openai prometen proporcionar información más detallada sobre la arquitectura y el entrenamiento del modelo en un futuro próximo.

¿Qué opinas de DALL · E y modelos neuronales generativos similares capaces de crear contenido visual a partir de descripciones textuales? ¿Dónde puede ser útil esa tecnología? ¿Qué tan impresionado estás con los resultados? Bienvenido a los comentarios.