Sobre las descripciones de las imágenes generadas automáticamente

Una IA un poquito despistada

No quería yo malacostumbrarme a tirar de Chat GPT para elaborar entradas del blog, pero también es verdad que más autoría hay en un post como este que aquellos en los que os endoso artículos ajenos tras una breve introducción por mi parte. El caso es que esta va a ser la segunda entrada seguida en la que consulto algo al chatbot de moda. No pasa nada, al fin y al cabo, no se trata de un post creado por él, como harán otros…; sólo le consultamos cosas concretas cuya respuesta indicaremos.

Pero antes de eso, explicaré el origen de lo que me ha empujado en esta ocasión a charlar con la aplicación de IA. Resulta que al descargar una imagen que nos han enviado para ilustrar un artículo, hemos comprobado que la “Descripción generada automáticamente” para dicha imagen, que reproducimos aquí abajo, es esta tan peculiar: “Un grupo de personas haciendo gestos con la cara de una persona”.

imagen

Vamos a ver. ¿Un grupo de personas haciendo gestos con la cara de una persona? Primero, las personas suelen hacer gestos con cara de personas. Es verdad que hay gente que va por la vida a cara de perro, y tal, pero hablando literalmente, no me imagino a alguien haciendo gestos con la cara de un ornitorrinco, por ejemplo. Y, en segundo lugar, si vemos la imagen, pocos gestos veo haciendo a esas chicas. Más bien tienen una cara muy neutral, puestos a volver con las metáforas animales, no gesticulan más de como lo hace un gato casi todo el rato. Por no hablar de los demás elementos que no ha descrito de la imagen: ordenadores, principalmente.

En definitiva, parece que el sistema automático que haya generado esa descripción, que entiendo que algo de inteligencia artificial debe tener, tampoco se lo ha currado mucho que digamos. Desde luego, en comparación con el nivel de desarrollo que se ha alcanzado ya, a esa IA se la nota bastante desorientada. Sin ir más lejos, si tú le pides a Chat GPT (aquí entramos ya en lo que decía al principio) que te describa la Mona Lisa de Leonardo Da Vinci, fíjate si te lo elabora bien:

 

"La Gioconda, también conocida como La Mona Lisa, es un retrato de una mujer que se encuentra sentada en un entorno paisajístico. Su rostro es sereno y enigmático, con una leve sonrisa que ha intrigado a muchos. Tiene una piel clara y suave, y su cabello oscuro cae en ondas sobre sus hombros.

La mujer viste un vestido oscuro con un escote sencillo, y un velo transparente que cubre parte de su cabeza. El fondo del cuadro muestra un paisaje con montañas, ríos y caminos que se extienden hacia el horizonte, creando una sensación de profundidad. La luz y la sombra juegan en su rostro, resaltando sus rasgos y dándole un aire casi tridimensional.

La composición es equilibrada, con la figura de la Gioconda centrada, lo que atrae la atención del espectador hacia su expresión. En general, el cuadro transmite una sensación de calma y misterio, invitando a la contemplación".

 

Eso sí que es una descripción más que decente, y no lo de la foto de arriba. A raíz de esto, luego me ha ocurrido que, ante tan satisfactorio resultado, he querido resolver una duda que tengo desde hace mucho: Hay bastante gente que opina (y no les falta razón) que la frase “una imagen vale más que mil palabras” es un poco simplona, porque con mil palabras se pueden decir muchísimas cosas más que con una sola imagen. Dejando a un lado si la frase se refiere a la cantidad de contenido o al impacto o inmediatez que puede causar lo visual frente a lo verbal (verbal escrito, se entiende), es justo reconocer que hay imágenes para las que mil palabras pueden no ser suficientes. En ese sentido, yo siempre he pensado en El Jardín de las Delicias de El Bosco. Por eso, le he pedido a Chat GPT, no que describa dicho cuadro (no os asustéis, sería una entrada kilométrica), sino que calcule cuántas palabras cree que necesitaría para no dejarse sin explicar ni un solo detalle de todo lo que se ve. Me ha dicho esto:

 

"El Jardín de las Delicias de El Bosco en todo su esplendor sería un desafío fascinante. Este famoso tríptico está lleno de detalles complejos y simbolismos, así que podría necesitar miles de palabras para abarcar cada elemento. Tal vez unas 5,000 a 10,000 palabras podrían ser suficientes para hacer justicia a la riqueza visual y temática de la obra".

 

No es que sea una respuesta muy precisa, pero para darla en apenas unos segundos, imaginándome al chatbot en ese tiempo “visualizando” el cuadro, no está nada mal (o eso o ya tiene capacidad de cálculo a cholón, en plan cuñao). En cualquier caso, demostrado: efectivamente hay al menos una imagen que vale mucho más que mil palabras, objetivamente hablando.

…Y esto dan de sí las reflexiones de un Pulpo que no para de flipar con las nuevas tecnologías. Disculpad si habéis leído hasta el final y tenéis la sensación de que tampoco hemos ido a parar a algo que sirviera para mucho… Que conste que es más o menos como se siente ahora mismo este que escribe.