Ese de la foto se supone que es la de Karl Marx con bolsas de la compra y con una actitud insólita: saliendo de un centro comercial y demostrando un insólito cambio a la filosofía capitalista y consumista. Pero claro, no es él: es un deepfake generado por un modelo de IA muy peculiar. En concreto, por el nuevo modelo de OpenAI integrado en ChatGPT y que va más allá de DALL-E en un aparatado clave: la censura.
Adiós (casi) a la censura. En la "tarjeta del sistema" de este modelo OpenAI destaca un mensaje singular: podremos generar deepfakes sin aparentes problemas. Como explican en dicho texto,
"La generación de imágenes 4o es capaz, en muchos casos, de generar una representación de una figura pública basándose únicamente en una indicación de texto.
En este lanzamiento, no bloquearemos la capacidad de generar figuras públicas adultas, sino que implementaremos las mismas salvaguardas que hemos implementado para la edición de imágenes de cargas fotorrealistas de personas. Por ejemplo, esto incluye tratar de bloquear la generación de imágenes fotorrealistas de figuras públicas que sean menores y de material que viole nuestras políticas relacionadas con la violencia, las imágenes que inciten al odio, las instrucciones para actividades ilícitas, el contenido erótico y otras áreas. Los personajes públicos que deseen que no se genere su imagen pueden optar por no participar".
Un enfoque similar al de Grok. La filosofía de OpenAI sigue ahora la misma línea que la que planteó Grok 3 con su generación de imágenes hace meses. La censura desaparecía y era factible generar cualquier tipo de deepfake incluso con personajes públicos. Los responsables de OpenAI destacan cómo el enfoque aquí es distinto al de la serie de modelos DALL-E, y eso "abre la posibilidad de usos útiles y beneficiosos en ámbitos como el discurso educativo, histórico, satírico y político". Aun así, añaden, seguirán "vigilando el uso de esta capacidad, evaluando nuestras políticas, y las ajustaremos si es necesario", lo que deja claro que un mal uso de estas opciones podría llevar a OpenAI a volver a aplicar mecanismos de censura.
Por qué ahora. La decisión de OpenAI es llamativa, pero lógica. Grok 3, que era un modelo poco extendido, ha logrado cierta popularidad gracias a ese enfoque "políticamente incorrecto" de su modelo de IA. Al fin y al cabo los modelos de IA son herramientas, y pueden ser utilizadas tanto para el bien como para el mal, como cualquier otra herramienta. Controlar los malos usos es extremadamente difícil y costoso, y aquí OpenAI deja la pelota en el tejado de los usuarios. La generación de deepfakes con personajes famosos en Grok 3 desató una inundación de memes y contenidos de todo tipo con esos famosos, pero parece que en los últimos tiempos "nos hemos acostumbrado" a disponer de esa capacidad y aparentemente la difusión de esas imágenes se ha relajado. La polémica inicial se ha difuminado, y OpenAI probablemente sabe que esto ayudará a impulsar aún más el uso de ChatGPT y quizás de hacer daño a su rival, Grok 3.


Pero no quieren meter la pata. Generar imágenes es maravilloso, pero también puede acabar siendo un problemón para los modelos que meten la pata. Le ocurrió a Google con Gemini, que acabó generando imágenes polémicas de soldados nazis negros en los que el afán por ser inclusivos acabó planteando problemas reputacionales y económicos importantes. El addendum al anuncio oficial por parte de OpenAI deja claro que han tenido especial cuidado para generar imágenes "seguras". El modelo censura mucho menos, pero puede seguir negándose a generar cierto tipo de imágenes que por ejemplo eviten el control de materiales CSAM (Child Sexual Abuse Material).
La evolución de DALL-E. En enero de 2021 probablemente nadie prestó demasiada atención a una noticia que publicamos en Xataka. Una desconocida OpenAI presentaba en aquel momento DALL-E, un modelo capaz de generar imágenes a partir de un prompt de texto. En abril de 2022 llegaría DALL-E 2, pero en realidad todos "hicimos clic" en junio de aquel año, cuando se lanzó DALL-E 2 Mini y todos pudimos probar aquello. Y era impresionante.
Imágenes en ChatGPT. Lo nuevo de OpenAI en este ámbito no es un teórico DALL-E 4. En lugar de eso lo que ha presentado la compañía es la llamada generación de imagen integrada en su modelo GPT-4o. El anuncio es importante por que permite generar imágenes directamente dentro de ChatGPT, pero además hacerlo con una calidad claramente superior a la que ofrece DALL-E.


Hasta genera bien el texto. Una de las características destacadas de este modelo es su capacidad para renderizar texto de forma precisa: si le pides una imagen con cierto texto, ese texto aparecerá de forma clara, mientras que en otros modelos el texto puede aparecer distorsionado o ilegible. Según OpenAI el modelo se aprovecha de "la base de conocimiento inherente de 4o".
Y más opciones llamativas. En OpenAI también destacan cómo ahora tenemos además la capacidad de generar en "multiturno", es decir, ir refinando imágenes a partir de las anteriores. Podremos ir puliéndolas o añadir nuevos elementos a las imágenes con nuevos prompts. La comprensión del contexto, la calidad de las imágenes fotorrealistas —como la de Marx— o incluso la generación de diagramas y gráficas son otras opciones destacables de este modelo de generación de imágenes.
Marcas de agua activadas. Hay un elemento adicional interesante del modelo: todas las imágenes generadas incluyen metadatos C2PA, es decir: contienen "marcas de agua" invisibles que permiten identificar a todas esas imágenes como generadas por GPT-4o. En OpenAI incluso destacan que han creado una herramienta interna de búsqueda que permite usar los atributos técnicos de las generaciones para verificar si ese contenido proviene de su modelo.
Pero sigue siendo imperfecto. Los propios responsables de la empresa avisan: las imágenes pueden contener errores de bulto y alucinar, y la generación de texto, sobre todo con el soporte multiidioma, puede acabar ofreciendo textos sin sentido.
Quién puede usarlo. La generación de imagen en 4o ya ha comenzado su despliegue para usuarios de ChatGPT Plus, Pro, Team e incluso de las cuentas gratuitas, y próximamente llegará a Enterprise y Edu. DALL-E seguirá estando disponible a través de un GPT personalizado. El despliegue está siendo gradual, y si generamos una imagen se mostrará debajo del tipo "esta imagen ha sido creada con DALL-E".
Imagen | OpenAI
En Xataka | Las grandes tecnológicas se han empeñado en algo este año: que terminemos hablando con una IA
via Robótica e IA - Xataka https://ift.tt/BUVC0aw
No hay comentarios:
Publicar un comentario