Dall-E 3, así es la poderosa herramienta de generar imágenes a partir de textos

En el campo de la generación de imágenes mediante inteligencia artificial, OpenAI sigue presentando avances que parecen superar el límite de lo posible. La prueba es la presentación este mismo mes de septiembre de DALL-E 3, un nuevo algoritmo que supone una auténtica revolución en el mundo de la generación de texto a imagen.

DALL-E 3 es un modelo que se basa en DALL-E 2 y ChatGPT, pero que sobre todo destaca en la tarea de «traducir» descripciones textuales a imágenes, con un gran nivel de detalle y precisión. Los resultados, a la vista de las imágenes que se han filtrado hasta la fecha (incluimos algunas de ellas en este artículo), son sencillamente impresionantes.

Este poderoso modelo de IA se encuentra todavía en sus primeras fases de desarrollo e investigación. Sin embargo, lo que se sabe hasta ahora invita ciertamente al entusiasmo. Es el anuncio del futuro de la tecnología de generación de imágenes, un escenario que parece no tener fronteras y que sin duda nos va a dejar con la boca abierta muchas veces.

Faltan todavía muchos detalles por desvelar acerca de DALL-E 3, pero con lo que ya se sabe, podemos dibujar una pequeña presentación de lo que esta herramienta nos puede ofrecer:

¿Qué es la generación de texto a imagen?

Este es uno de los campos donde más patente queda el impacto de la inteligencia artificial en nuestras vidas. Los modelos como DALL-E 3 crean redes neuronales para transformar textos en imágenes vívidas, dotadas de gran realismo.

Estos modelos comprenden e interpretan nuestros escritos, capturando detalles, colores y contextos complejos para generar representaciones visuales sorprendentes. Hay numerosas aplicaciones para esta nueva forma de generar imágenes: arte, diseño, creación de contenido… Una herramienta poderosa para dar vida a ideas creativas.

Una nueva forma de generar imágenes a partir de texto

DALL-E 3 ha sido específicamente diseñado para redefinir la manera de generar imágenes a partir de texto. Las soluciones presentadas hasta ahora a menudo se quedan cortas, ya que ignoran ciertas palabras o expresiones. Dicho de otro modo: solo pueden sacar partido de ella aquellos usuarios expertos en lenguaje de ingeniería rápida.

Por el contrario, DALL-E 3 representa un cambio radical. Un avance que supone que cualquier usuario pueda usar esta tecnología y obtener increíbles resultados, sin complejidades.

Integrado perfectamente con ChatGPT, DALL-E 3 se convierte de esta manera en un socio creativo y receptivo a nuestras demandas. Todo lo que tenemos que hacer es transmitirle nuestras ideas a través de palabras y descripciones, dejando que el algoritmo haga el resto del trabajo: dar vida a nuestros pensamientos, generando imágenes personalizadas con un gran impacto visual.

Más precisión

En la versión anterior de DALL-E se producían los mismos problemas que en el resto de modelos de inteligencia artificial generativa. No siempre era correcta la forma de interpretar mensajes de texto complejos. A veces, incluso se mezclaban conceptos a la hora de generar imágenes, dando lugar a resultados absurdos o grotescos.

Pero, a diferencia de sus predecesores, DALL-E 3 está diseñado para comprender indicaciones de texto con un notable grado de precisión, capturando matices y detalles como nunca antes se había hecho.

Cuestiones éticas y transparencia

El debate ético en torno a las imágenes generadas por inteligencia artificial ya está en boca de mucha gente, no solo de los expertos. Para evitar la generación de imágenes de contenido violento, pornográfico o que pueda incitar al odio, DALL-E 3 incorpora ciertas medidas de seguridad que limitan algunos aspectos de la generación de contenido. También tiene un filtro que impide generar imágenes de figuras públicas, salvaguardando así su privacidad y combatiendo esta forma de fake news.

Otra de las preocupaciones de los responsables de DALL-E 3 es la de ser lo más transparente posible con sus usuarios en cuanto a la «realidad» de sus imágenes. No puede ser de otro modo, ya que a medida que el contenido generado por inteligencia artificial se vuelve más frecuente en internet, crece la necesidad de ser lo más transparentes posible en la identificación de dicho contenido. De nuevo, la intención es evitar engaños y malentendidos, poniendo las bases de un uso responsable de esta nueva tecnología. Si es que eso no es una quimera.

Por este motivo, OpenAI está investigando de manera activa nuevas formas de ayudar a las personas a distinguir las imágenes generadas por la IA de las creadas por humanos. Ahora se está ensayando una herramienta interna que ya ha sido bautizada como «clasificador de procedencia». En teoría, gracias a este instrumento va a ser posible determinar si una imagen ha sido generada por DALL-E 3 y, por tato, no es una imagen real.

Fecha de lanzamiento

Si todo sale como está previsto, DALL-E 3 será presentado al público el mes de octubre de 2023. Los primeros que tendrán la oportunidad de comprobar cómo funciona el nuevo algoritmo serán los usuarios de ChatGPT Plus y ChatGPT Enterprise. OpenAI tiene la intención de implementar DALL-E 3 en un modelo de fases, es decir, dosificando sus funcionalidades, aunque aún no ha confirmado una fecha específica para un lanzamiento público y gratuito.

WindowsNoticias