jueves, 13 de junio de 2024

La versión "compacta" de Stable Diffusion 3 ya está aquí. Y está generando cuerpos humanos monstruosos

La versión

Stable Diffusion es el gran rival de Midjourney en el ámbito de los modelos de IA generativa de imágenes, sobre todo porque permite a cualquiera utilizarlo en su PC y potenciarlo con todo tipo de componentes externos. Hace meses que se lanzó Stable Diffusion 3 y ahora ha llegado una nueva versión compacta llamada Stable Diffusion Medium, pero hay un problema: está creando monstruos.

Qué ha pasado. Aunque Stable Diffusion 3 apareció el pasado 22 de febrero y la API pública está disponible desde el 17 de abril, ahora acaban de liberarse los "pesos" de Stable Diffusion Medium, una versión importante porque es más compacta que puede ser utilizada en cualquier PC de forma fluida si uno tiene una GPU con buena potencia.

Basta una GPU con al menos 5 GB de memoria. Mientras que SD3 Large (la original) tiene 8.000 millones de parámetros, SD3 Medium tiene 2.000 millones. Como explicó Christiam Laforte, co-CEO de Stability AI, "a diferencia de SD3 Large, SD3 Medium es más pequeño y puede funcionar de forma eficiente en hardware de consumo". Los responsables de este modelo explican que el requisito mínimo es contar con una GPU con 5 GB de memoria gráfica, aunque recomiendan una con 16 GB para obtener mejores resultados y funcionamiento. Stable Difussion 3 Medium está también disponible de forma gratuita online a través de Hugging Face.

Cuerpo3 Cuerpo3 Esas manos no, por favor. Fuente: -f1-f2-f3-f4-/Reddit.

El modelo es prometedor. Esta versión se beneficia teóricamente de todas las mejoras del modelo de gran tamaño. Así, ofrece mayor grado de fotorrealismo en las imágenes generadas, mucho mejor soporte de tipografías gracias a la arquitectura Diffusion Transformer, mejor comprensión de prompts complejos y una eficiencia perfecta para poder ser ejecutado en GPUs "de consumo".

Mujer1 Mujer1 Fuente: HornyMetalBeing/Reddit.

Pero se están generando cuerpos aberrantes. Sin embargo las limitaciones del modelo son patentes, como demuestran algunas imágenes que los usuarios están compartiendo públicamente. Lo explican en Ars Technica, donde revelan cómo en Reddit aparecen hilos que ridiculizan SD3 Medium criticando algunas imágenes monstruosas de cuerpos humanos.

Captura De Pantalla 2024 06 13 A Las 9 59 36 Captura De Pantalla 2024 06 13 A Las 9 59 36 Fuente: Bryandroid98/Reddit.

Lo de las manos casi es lo de menos. Los problemas aparecen por ejemplo en imágenes que los usuarios han creado con prompts simples de mujeres tumbadas en la hierba o en el agua. También parece que este modelo tiene problemas con las manos, algo que parecía cosa del pasado pero que aquí vuelve a hacer que imágenes que en general son fantásticas acaban siendo un horror por esa forma de representar las manos.

Cuerpo4 Cuerpo4 Fuente: ThereforeGames/Reddit

Paso atrás en su batalla con Midjourney. Estos problemas apuntan a un paso atrás para Stable Diffusion, que era visto como el gran competidor (junto a DALL-E 3) de Midjourney. Uno de los usuarios de Reddit bromeaba diciendo que "¡al menos nuestros conjuntos de datos [de entrenamiento] son seguros y éticos!", apuntando a que el entrenamiento de Midjourney es una incógnita y supuestamente aprovecha imágenes protegidas por derechos de autor.

La censura como posible razón. La creación de esas imágenes tan aberrantes puede deberse a la insistencia de Stability AI de censurar contenido adulto de los datos de entrenamiento de SD3. Esos datos enseñan al modelo cómo generar imágenes y son una fuente de información clave para que la IA aprenda sobre la anatomía humana, pero al privarle de esos datos, el modelo no entiende esas peticiones y genera imágenes absurdas e inquietantes. Ocurrió algo similar con Stable Diffusion 2.0 en 2022, y la empresa acabó corrigiendo el problema con SD 2.1 y con SD XL.

Problemas internos en Stability AI. La situación de la compañía no parece ser la mejor últimamente. Hace un año Getty la demandó, lo que probablemente marcó su evolución. Su CEO y fundador, Emad Mostaque, dimitió el pasado mes de marzo, tras lo cual también dejaron la empresa tres de sus ingenieros más importantes. Poco después se supo que la empresa había despedido al 10% de su plantilla en abril. Hace meses que la situación financiera no parece especialmente halagüeña, lo que complica el futuro aún más para la compañía.

Imágenes | Reddit

En Xataka | Los artistas están hartos de que las IAs generativas roben sus obras. Así que las están envenenando



via Robótica e IA - Xataka https://ift.tt/jnd9Dz6

No hay comentarios:

Publicar un comentario