Inteligencia artificial de Google convierte texto a imágenes fotorrealistas

El proyecto 'Imagen' analiza el contenido de los textos y los traduce a imágenes de alta fidelidad.
2 Junio, 2022 Actualizado el 2 de Junio, a las 18:58
Todas estas imágenes fueron hechas totalmente por computadoras sin ayuda de ningún ser humano (Foto:Google Imagen)
Todas estas imágenes fueron hechas totalmente por computadoras sin ayuda de ningún ser humano (Foto:Google Imagen)
Arena Pública

La tecnología detrás del proyecto "Imagen", basada en avanzados modelos lingüísticos e informáticos, marca un avance más para la inteligencia artificial.

Hace unos días Google anunció que está trabajando en “Imagen”, un sistema capaz de codificar el contenido semántico de los textos y convertirlos en imágenes fotorrealistas sin ayuda de ningún ser humano.

'Imagen' utiliza un gran codificador congelado T5-XXL para codificar el texto de entrada en incrustaciones. Un modelo de difusión condicional mapea el texto incrustado en una imagen de 64×64. Utiliza además modelos de difusión de superresolución condicional de texto para aumentar la muestra de la imagen 64 × 64, 256 × 256 y 1024 × 1024.

Para hacer esto, el sistema necesita de potentes codificadores semánticos de texto “para captar la complejidad y la composicionalidad de las entradas de texto en lenguaje natural arbitrario”, dice el estudio sobre el sistema. Por ello, Imagen es entrenado con datos de imagen-texto previamente ya emparejados y especialmente significativos provenientes una base de datos grande que le enseña a hacer su trabajo.

Este trabajo es incluso más avanzado en cuanto realidad y precisión que otros sistemas como el de Nvidia, que a partir de dibujos genera imágenes fotorrealísticas, o como DALL-E 2 de la empresa OpenAI, el cual hace lo mismo que Imagen pero a partir de un patrón de puntos aleatorios que altera gradualmente hacia una imagen hasta que reconoce aspectos específicos de la leyenda para esa imagen.

'Imagen' como futuro artista de la escuela generativa

Actualmente su aplicación más importante es la de crear “arte generativo”, es decir, arte producido por un sistema computacional autónomo o parcialmente autónomo, de acuerdo con la revista Hisour de arte, cultura e historia.

Su valor no puede ser analizado bajo los mismos criterios con que se califica el arte humano. Su valor, por el contrario, radica en la capacidad que tenga el sistema de condensar miles de millones de datos, encontrar patrones y algoritmos y finalmente ofrecer una respuesta “nueva” sin la ayuda, al menos en gran parte, de los seres humanos.

Este es el caso de un cuadro titulado “Edmond de Belamy” hecho por un programa de inteligencia artificial y vendido en el 2018 por 432 mil 500 dólares en la famosa casa de subastas Christie’s en Nueva York.

Sin embargo, este tipo de tecnologías de inteligencia artificial todavía requiere de bastante desarrollo. La misma empresa Google advierte que existen varios desafíos éticos. Por ejemplo, el sistema puede llegar a reproducir y retratar estereotipos sociales dañinos, violencia, pornografía, etc., que se pueden fácilmente reconocer en las bases de datos.

“Los requisitos de datos de los modelos de texto a imagen han llevado a los investigadores a depender en gran medida de grandes conjuntos de datos extraídos de la web, en su mayoría no seleccionados. Si bien este enfoque ha permitido rápidos avances algorítmicos en los últimos años, los conjuntos de datos de esta naturaleza a menudo reflejan estereotipos sociales, puntos de vista opresivos y asociaciones despectivas o dañinas con grupos de identidad marginados”, dice Google en el sitio web de su proyecto, quien ya trabaja para suprimir este subconjunto de patrones.

Además, de avanzar esta tecnología y comenzar a retratar humanos, esto podría facilitar la creación de fake-news o noticias falsas, dado su nivel de realismo y precisión, tal como ya ha ocurrido con el programa “Deep-fake”. Por ejemplo, hace pocos días se modificó un video con este programa para mostrar al CEO de Tesla, Elon Musk, en un video falso, pero con su imagen y su voz modificados, promoviendo una estafa piramidal con criptomonedas, el cual logró recaudar varios depósitos de 1,700 dólares.

Por el momento, ni 'Imagen' ni DALL-E 2 saldrán al mercado hasta garantizar que no ocurrirán estos problemas ni serán usados con fines maliciosos. Aún así, representan un avance importante en el campo de la alineación texto-imagen y de la inteligencia artificial.