lunes, 27 de febrero de 2023

"Quizá el proyecto más importante de la historia de la humanidad": por qué OpenAI ya piensa en los riesgos de la AGI

Si hay un tema clásico en las películas de ciencia ficción, ese es el de las máquinas que acaban dominando el mundo. Esa distopía retratada en títulos icónicos como 'Terminator', 'Yo, robot' o incluso 'The Matrix' nos parecía precisamente solo un tema de esas películas o de novelas de ciencia ficción, pero lo cierto es que el peligro es real.

No lo decimos nosotros: lo dice Sam Altman, CEO de OpenAI, que explicaba en un reciente artículo en el blog oficial de la empresa cómo esa búsqueda de una inteligencia artificial que beneficie a toda la humanidad puede acabar mal si no tenemos cuidado.

Altman hablaba de la llamada Inteligencia Artifical General (AGI, por sus siglas en inglés), que será mucho más capaz que los sistemas actuales y que teóricamente permitirá que la humanidad progrese de forma inaudita. Sin embargo, su desarrollo y despliegue no está exento de riesgos.

Lo sorprendente aquí es que uno esperaría que en OpenAI estuvieran más confiados con una evolución más o menos segura de este campo. No parecen estarlo del todo, y precisamente ese artículo mostraba algunas pautas con las que en OpenAI proponen enfrentarse a un futuro en el que las máquinas puedan acabar dominando a la humanidad.

Inteligencia artificial general, fuerte y débil

Lograr una AGI es el santo grial de quienes trabajan en este campo. Con esa inteligencia artificial general sería psoible resolver cualquier tarea intelectual resoluble por un ser humano.

De hecho la teoría es que estos sistemas serían capaces de realizar juicios y razonar ante una situación de incertidumbre, además de comunicarse en lenguaje natural, planificar o aprender.

Esta inteligencia artificial general no es, eso sí, la que nos venden las películas de ciencia ficción de Hollywood. En tramas como las de 'Terminator' lo que tenemos es una inteligencia artificial fuerte, que posee los llamados "estados mentales" y además es consciente de sí misma.

Lo que ofrece ahora esta disciplina son sistemas de inteligencia artificial débil, capaces de resolver problemas muy específicos y acotados. Por ejemplo, jugar al ajedrez , conversar como lo hace ChatGPT o generar imágenes espectaculares a partir de un entrenamiento previo.

El siguiente paso, eso sí, es el de esa "superinteligencia artificial" o inteligencia artificial general que como explicaban en OpenAI sería un sistema altamente autónomo y que "supera de largo a todos los humanos en la mayoría de trabajos económicamente valiosos".

La AGI tiene sus ventajas, pero también sus inconvenientes

Es cierto que una inteligencia artificial general podría resolver muchos problemas actuales y, como dicen en OpenAI impulsar la economía global o ayudar a conseguir nuevos descubrimientos científicos "que cambien los límites de lo posible", pero también plantea riesgos.

Captura De Pantalla 2023 02 27 A Las 10 33 24

En OpenAI reconocen la existencia de riesgos como un mal uso o una disrupción de la sociedad, pero creen que es posible evitar esos riesgos aunque reconocen que "lo que parece correcto en teoría a menudo acaba comportándose de forma más extraña de lo esperado en la práctica".

Para lograr que el camino hacia esa AGI sea el correcto, creen que los pasos a seguir son claros. Es importante, aseguran, desplegar esos sistemas y comprobar cómo funcionan "en el mundo real" para verlos evolucionar.

Eso, destacan, da tiempo a la gente, instituciones y reguladores a entender qué está ocurriendo para actuar en consecuencia. Una iteración cuidadosa pero continua es también importante para estos avances, pero explican que "a medida que nuestros sistemas se acercan a una AGI, nos estamos volviendo más y más cautos con la creación y despliegue de nuestros modelos".

Para evitar que esos despliegues impliquen más riesgos que beneficios, en OpenAI evalúan constantemente ese equilibrio, y es lo que ha pasado por ejemplo con ChatGPT. Los sistemas están acotados, pero el plan de OpenAI es el de facilitar a los usuarios cambiar el comportamiento de la IA que estén usando.

En esta empresa aseguran que esperan estar en constante contacto con instituciones globales a la hora de decidir cómo gobernar estos sistemas, cómo distribuir sus ventajas y cómo compartir el acceso a dichos sistemas.

Hay una clave para tratar de controlar esos avances. Una que se podría resumir en el "lento pero seguro" y que como explican en OpenAI requiere que este desarrollo vaya pasito a pasito y siempre de forma muy controlada:

"La AGI puede surgir pronto o en un futuro lejano; la velocidad de evolución de la AGI inicial a iteraciones más potentes puede ser lenta o rápida. Muchos de nosotros pensamos que el cuadrante más seguro en esta matriz de dos por dos son los plazos cortos y las velocidades de evolución lentas; los plazos más cortos parecen más susceptibles de coordinación y es más probable que conduzcan a una evolución más lenta debido a una menor sobrecarga computacional, y una evolución más lenta nos da más tiempo para averiguar empíricamente cómo resolver el problema de la seguridad y cómo adaptarnos a las nuevas tecnologías".

Ese mismo mensaje es el que desde hace tiempo también plantean otras personalidades del mundo de la ciencia o la tecnología: Stephen Hawking, Bill Gates o Elon Musk ya lo avisaron. Hace años que un grupo de expertos ya crearon la asociación Future of Life, precisamente orientada a defender un desarrollo responsable de la inteligencia artificial.

'Terminator' no está descartado

A largo plazo la cosa podría ponerse peligrosa, porque según OpenAI esa primera inteligencia artificial general será solo un punto de inflexión a partir del cual el progreso será igual de rápido.

De hecho varios usuarios compartían en Twitter la oferta de trabajo de OpenAI en la que se buscaba un "ingeniero para un interruptor de muerte" (o de apagado) que debería estar pendiente de desconectar los servidores en caso de catástrofe. Eso ya da buenas muestras de

De hecho, explica Altman, "algunas personas en el campo de la inteligencia artificial piensan que los riesgos de la AGI (y los sistemas sucesivos) son ficticios; estaríamos encantados si resultara que tienenr razón, pero vamos a funcionar como si estos riesgos fueran existenciales". Indicen en esos riesgos al decir lo siguiente:

"La transición a un mundo con superinteligencia es quizá el proyecto más importante —y esperanzador, y aterrador— de la historia de la humanidad. El éxito no está ni mucho menos garantizado, y es de esperar que lo que está en juego (ilimitadas desventajas e ilimitadas ventajas) nos una a todos".

El resumen de todo esto es claro: esperemos lo mejor y estemos preparados para lo peor. O intentemos estarlo.



via Robótica e IA - Xataka https://ift.tt/lyvxmHO

domingo, 26 de febrero de 2023

Guía práctica para escribir los mejores 'prompts' en Midjourney y desbloquear su verdadero potencial

Guía práctica para escribir los mejores 'prompts' en Midjourney y desbloquear su verdadero potencial

La oleada de herramientas basadas en Inteligencia Artificial que nos llegó en 2022 fue de las mejores noticias del mundo online en muchos años. Tras años de cryptobros promocionando criptomonedas con nombres astronómicos, perrunos u otra clase de timos de la estampita; expertos en la recién anunciada Web3 con diez años de experiencia en ella u otros tipos de pokémon salvajes; de pronto llega algo con enjundia, que convence y emociona.

Aunque las manos tengan siete dedos. Aunque las superficies polimorfas parezcan apocalípitcas. Aunque podamos convencer a la máquina de que dos más dos son cinco. Hablamos de un niño que todavía gatea y usar estas herramientas es tan emocionante como cuando nos conectábamos a Internet por primera vez.

Y una de ellas, MidJourney, se ha convertido en esencial en mi día a día, así que ahí van algunos consejos para sacarle todo el partido y crear imágenes con la mayor calidad posible. Partiendo de la base de que ya sabes cómo se utiliza MidJourney.

Puedes ser ridículamente específico

Llevamos muchos años buscando mediante palabras clave, y esto es lo primero que suele hacer alguien cuando usa MidJourney, ChatGPT y compañía: hablar en apache. Aquí lo ideal es hacer exactamente lo opuesto.

Algunos ejemplos:

❌ Demasiado breve

✅ detallado, mucho mejor

Perro volando

Perro de la raza pastor alemán, volando en un cielo azul con algunas nubes esponjosas, el perro no tiene alas pero sí posa como un pájaro, el sol incide perpendicular para hacer la imagen brillante. Tiene una expresión feliz e intrépida en su rostro, mira hacia el horizonte.

Hombre viendo la TV

Un hombre de unos 60 años sentado sobre el sofá de su salón, observando calmado un televisor. Tiene el mando a distancia en su mano, apuntando hacia el televisor. Las paredes son lisas con algunos cuadros de paisajes, hay una gran ventana en la pared del fondo tapada con una cortina. Toda la estancia está iluminada de rojo.

Un niño y un perro

Un niño rubio con ojos azules de unos cinco años se está haciendo una selfie junto a su perro. Ambos sonríen entusiasmados. De fondo se ve una casa típicamente mediterránea, con maceteros en la calle y el mar de fondo, a mediodía.

No tengas miedo a dar unas descripciones que parezcan absurdas, simplemente asegúrate de que queda reflejada en ellas todo aquello que crees importante para la imagen que quieres conseguir. Dicho eso, precisamente MidJourney hace algo mucho mejor que los demás: dar buenos resultados con prompts breves, por lo que para según qué tipo de imágenes, estos pueden valer.

Mejor en inglés

Aunque la interfaz de MidJourney esté en inglés, la herramienta entiende prácticamente cualquier idioma, pero eso no significa que los resultados que ofrece sean de la misma calidad en uno que en otro.

Mi propia experiencia tratando de calzarle conceptos extremadamente concretos en español, junto a algún que otro comentario en Reddit, me han terminado de convencer: al menos de momento, los resultados óptimos se logran haciéndole peticiones en inglés. Si no es tu fuerte, puedes recurrir al traductor que mejor te funcione, Google Translate o DeepL.

La proporción

MidJourney proporciona con cada petición cuatro imágenes cuadradas. Puedes pedir que sean apaisadas o verticales con el comando "--ar" seguido de la relación de aspecto que quieras. "--ar 3:2", "--ar 16:9", etc. "ar" significa "aspect ratio".

ratios

Un ejemplo de dos imágenes con el mismo prompt, uno sencillo, simplemente añadiendo el comando "--ar 3:2" al final.

Jlacort A Five Year Old Boy Takes A Selfie With A Dog Both Are 34f9b028 03fa 4711 986b Dc647d5c3a13
Prompt: "A five-year-old boy takes a selfie with a dog. Both are smiling. Sunset lighting."
Jlacort A Five Year Old Boy Takes A Selfie With A Dog Both Are 49e92be7 8c04 47c0 Ab1a Dd3452709440
Prompt: "A five-year-old boy takes a selfie with a dog. Both are smiling. Sunset lighting. --ar 3:2".

MidJourney da mucha libertad para escoger proporciones, si bien avisa que en algunos casos concretos podría no entregar la imagen final con esa proporción exacta, así que toca revisar bien el resultado final.

Y un matiz importante: solo detecta números enteros, no decimales. Si quieres uno con decimales, multiplica hasta que desaparezcan esos decimales. Por ejemplo, si quieres una imagen en 2.39:1, una proporción habitual en el cine, usa --ar 239:100. No obstante, a partir de la cuarta versión, MidJourney no genera imágenes en ciertas proporciones, como alguna superior a 2:1 o 1:2.

El estilo es la clave

"Una ilustración" o "una imagen" es un concepto ambiguo. ¿Qué tipo de ilustración? ¿Qué tipo de imagen? ¿Realista, a mano alzada, en acuarela? ¿Con iluminación cinemática o mejor que parezca un cuadro al óleo? Ahí es donde entran los estilos. Los estilos e iluminaciones que puede entender MidJourney son casi infinitos, así que el principal límite es tu conocimiento o tu imaginación.

Algunos ejemplos en los que puedes revisar el prompt para entender esto. Atención a los términos usados al final, son los que también puedes usar para ir experimentando con esta herramienta. 

Grid 0
Prompt: "A person alone, in the living room of his house, watching television. He has the remote control in his hand, pointing towards the television. Hyperrealistic, CGI, HDR, red-lighting, --ar 3:2"

¿No conoces suficientes términos como para matizar tanto una petición? No hay problema, busca jerga como esta para hacer referencia a lentes, óptica, iluminación, efectos visuales... MidJourney es lo suficientemente inteligente como para no provocar un desastre cuando nos pasemos usando términos, así que en la práctica no es un gran problema que nos excedamos.

Grid 0 1
Prompt: "A guy in his 20s with a cap doing maths in his desk. With cinematic lightting, practical light, with closeup shot, 55 mm lens, production quality, depth of field, cinema photography, professional color grading, exquisite detail, sharp-focus, intricately-detailed, long exposure time, f/2.8, diffuse-back-light, award winning photography, realistic photography, hyper realistic, unreal engine, realistic lense flare, real lighting, Studio Lighting, Accent Lighting, Global Illumination, Screen Space Global Illumination, Ray Tracing Global Illumination, Optics, Scattering, Glowing, Shadows, Rough, Shimmering, Lumen Reflections, Screen Space Reflections, Diffraction Grating, GB Displacement, Ray Traced, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, Tone Mapping, CGI, VFX, SFX, --ar 3:2".

Usar estos estilos, lentes, iluminaciones, matices... es lo que marca la diferencia a la hora de lograr ciertos resultados.

Un ejemplo bastante notable. Esta imagen de cuatro antenas de telecomunicaciones sobre una montaña nevada...

Jlacort Snow Capped Mountains With Four Mobile Telecom Towers O 0db7b941 Bf92 459b 8d4e Cc87b5041c47
Prompt: "Snow-capped mountains, with four mobile telecom towers on top,--ar 3:2"

...frente a esta otra...

Grid 0 1
Prompt: "Snow-capped mountains, with four mobile telecom towers on top, light blizzard, ultra-realistic, cinematic, chromatic aberration, incredibly detailed and intricate, FKAA, TXAA, RTX, CGI, VFX, --ar 3:2"

Si quieres estilos realistas, fotográficos, también hay muchos añadidos que puedes hacer al prompt. Un ejemplo para generar una imagen lo más natural posible, aunque con estilo fotográfico, de una pareja asistiendo al cine con mascarilla. No pasa nada por añadir términos contradictorios al prompt en cuanto a estilo, ya que MidJourney es lo suficientemente bueno como para entenderlo y separarlos en sus cuatro propuestas o no tratar de aplicarlos a la vez.

Grid 0 2
Prompt: A couple in their 40s, a man and a woman, are in the cinema. They are seen from the front, in the foreground. Both are wearing a face mask while looking towards the screen. With cinematic lighting, closeup shot, 75 mm lens, production quality, depth of field, cinema photography, color grading, exquisite detail, sharp-focus, intricately-detailed, long exposure time, f/2.8, diffuse-back-light, award winning photography, hyper realistic, unreal engine, realistic lense flare, Cinematic Lighting, Studio Lighting, Beautiful Lighting, Accent Lighting, Global Illumination, Ray Tracing Global Illumination, Ray Tracing Reflections, Lumen Reflections, Screen Space Reflections, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, OpenGL-Shaders, elegant, 4K, --ar 3:2"

La calidad que puede lograr MidJourney a partir de prompts no tan elaborados es impresionante.

Grid 0 2 1
Prompt: "A mediterranean house with a garden. It has two floors and a brick gable roof. The facade is beige. Sunset golden hour. In the garden there are dogs. Ultra-realistic, cinematic, chromatic aberration, incredibly detailed and intricate, FKAA, TXAA, RTX, CGI, VFX, --ar 3:2"

Ilustraciones

No toda creación con MidJourney tiene que parecer una imagen real, también funciona muy bien para crear ilustraciones de multitud de estilos. Piensa en un estilo de arte pictórico, ilustración, cómic, manga, anime... Hasta puedes recrear estilos de personajes de animación. Atención a las últimas palabras de los siguientes prompts, que son las que suelen indicar los estilos:

Ukiyoe
Prompt: "A man sitting on the couch in his living room, a minimalist flat. He holds a calculator in his hands while watching TV. 4K, Ukiyo-e. --ar 3:2"
Jlacort Epic Bowling Strike By A Couple Anime Style 4k B9f3d672 1668 4640 B51e Fb760d5ce541
Prompt: "Epic bowling strike by a couple, anime style. 4K, --ar 3:2"
Jlacort George Costanza As A Pixar Character 4k 873b2131 8d19 4f14 95d2 44c993aa9f98
Prompt: "George Costanza as a Pixar character. 4K, --ar 3:2"
Jlacort Freddie Mercury Singing Oil Painting 4k E8157f5b 7619 43ed 95a9 2dceec06a392
Prompt: "Freddie Mercury singing, oil-painting, 4K, --ar 9:16"
Jlacort Elaine Benes Art Deco 4k 6d5712ee 039e 443d 90c3 Bfebe909419b
Prompt: "Elaine Benes, art deco, 4K".
Jlacort Mediterranean Village Concept Art 4k 3b5e3410 2cd9 4652 8dac 7980786c9223
Prompt: "Mediterranean village, concept art, 4K, --ar 2:3"
Jlacort Bill Gates No Text Catholic 4k Eab525d9 E435 4c21 B843 2e451db4ffaa
Prompt: "Bill Gates, no text, catholic icon, 4K, --ar 2:3"
Jlacort Frida Kahlo As A Gta Videogame Character 4k 6c3386f6 Bea2 401d 9847 424f80579356
Prompt: "Frida Kahlo as a GTA videogame character. 4K"
Jlacort Albert Einstein Fauvism D521cf09 B2d0 401b 919e 2eac5cd73618
Prompt: "Albert Einstein, fauvism".
Jlacort Valencia Naive Art 2c27e8f8 A724 4358 88d9 59b379e31346
Prompt: "Valencia, naive art"
Jlacort Hogwarts Professors Steampunk 3d Full Body Movie Scenes 4f5293e5 3390 4e16 81d2 B9779b54e5a0
Prompt: "Hogwart's professors, steampunk, 3D, full body, movie scenes, ultra realistic, colorful. 4K, --ar 2:1"
Jlacort Burguer Pointilism 872fcc2b C534 4da9 85ee 8a89e2e52a89
Prompt: "Burguer, pointilism, --ar 3:2"
Jlacort Super Mario Expressionism 4k Af74a503 F678 4689 B84c B406df6b8253
Prompt: "Super Mario, expressionism, 4K".
Jlacort David Bowie Arriving At The Gates Of Heaven Surrealism 58045be5 5b08 4abe 8428 E8a4465f17d6
Prompt: "David Bowie arriving at the gates of heaven. Surrealism. 4K, --ar 3:2"
Jlacort Ultrarealistic 8k Anime Portrait Of Joker With Rain In D251723d 1ba6 4093 9514 52a4ace80ef4
Prompt: "Ultrarealistic 8K anime portrait of Joker with rain in the background"
Jlacort A Watercolor Painting Depicting A Lovely 8 Month Old Sp 3eee3da3 Cae0 46d4 A679 06fb56fd48c5
Prompt: "A watercolor painting depicting a lovely 8-month-old Spanish baby girl and a Spanish mother with long hair, they are smiling on the sunset beach. 4K, --ar 3:2"


La resolución

Si no solo quieres cambiar la proporción de la imagen, sino que le pides un tamaño exacto, puedes especificarlo usando los comandos --w para indicar la anchura y --h para indicar la altura.

Por ejemplo, si quieres una imagen de 1000 píxeles de ancho y 700 de alto, deberías añadir "--w 1000 --h 700" al final del prompt.

La calidad

MidJourney entiende "calidad" como "tiempo necesario para generar una imagen". Y puedes controlarlo. Esto es especialmente útil en imágenes donde los pequeños detalles sean clave. Por ejemplo, en imágenes donde el sujeto o el objeto protagonista aparezcan muy de cerca, sobre todo si tienen alguna textura muy marcada en su superficie; o en imágenes arquitectónicas.

Los valores que puedes usar son los siguientes, precedidos del comando:

  • --quality .25
  • --quality .5
  • --quality 1
  • --quality 2

A mayor sea el número, mayor el tiempo empleado en generar la imagen, y por tanto, su calidad. Si no usas ningún comando para la imagen que estés generando se aplicará "--quality 1" por defecto. Reducir la "calidad" es asumible en ciertas imágenes  a costa de tenerlas más rápido, y sobre todo, con menor uso de GPU de MidJourney, que es lo que marca los límites de su plan de pago.

Algunos ejemplos:

Jlacort Happy Elephant Running Across The Desert 4k De35efc3 3a36 45bf 872d B397014f7fac
Prompt: "Happy elephant running across the desert. 4K, --ar 3:2 --quality 0.25"
Jlacort Happy Elephant Running Across The Desert 4k 26e6e27c Dbd6 4b14 B8ba Ac0841f2c25f
"Happy elephant running across the desert. 4K, --ar 3:2 --quality 0.5"
Jlacort Happy Elephant Running Across The Desert 4k Bf14220a 9e2e 4c71 85ac 3e5e3f7f8bd5
Prompt: "Happy elephant running across the desert. 4K, --ar 3:2 --quality 1"
Jlacort Happy Elephant Running Across The Desert 4k Cec69fa3 D4b5 4c7d B9da B6f48039fa6a
Prompt: "Happy elephant running across the desert. 4K, --ar 3:2 --quality 2"


Que parta de una imagen previa o mezcle dos

Si quieres que tu imagen parte de una previa, puedes incluir su URL y entenderá que esa es la base que debe usar. No significa que vaya a reinterpretarla de una manera muy fidedigna, pero todo es probar y ajustar. Simplemente la URL de la imagen. Asegúrate de que finaliza con la extensión de la imagen.

Otra posibilidad es unir dos imágenes distintas para crear un híbrido de ambas. En ese caso, añade las URL de ambas. Por supuesto, puedes añadir los matices que quieras al prompt, aunque a mayor complejidad, más se puede alejar el resultado de la fusión de ambas imágenes.

Jlacort None 3ad439fc 899b 4cd4 B0b0 9bdc24466d1c
Prompt: "https://ift.tt/aty0jgn https://ift.tt/aty0jgn https://ift.tt/jXqhNQo https://ift.tt/2WQyrNq " (Imágenes de los Premios Xataka Orange 2022)

Evita presencias habituales

En la imagen anterior de Bill Gates solían aparecer textos ilegibles (MidJourney tiende a poner textos que son mezclas de muchos y no se entiende ninguno) en algún lugar cerca del protagonista. ¿No quieres que aparezca ninguno? Usa los dos guiones seguidos para establecer lo que no quieres que salga. Por ejemplo, "--no text". ¿Estás creando imágenes de pizzas y quieres que dejen de incluir pepperoni? Usa "--no pepperoni".

Jlacort Pizza Realistic C9a0d07e E931 40e9 9ddb 045387895fbb
Prompt: "Pizza, realistic"
Jlacort Pizza Realistic 475ff63b C617 4fea 91ee 939d978ed477
Prompt: "Pizza, realistic, --no pepperoni"


Abraza el caos

Una opción curiosa que ofrece MidJourney es introducir "caos" en las imágenes, lo cual viene a significar abrir el abanico en cuanto a libertad creativa e inventiva artificial a partir del prompt. Abstracción.

Si no usamos este parámetro, el valor por defecto es cero. Si queremos que suba, tenemos que añadir el comando "--chaos" o "--c" seguido de un número del 0 al 100. A mayor sea el número, más "caótica" será la imagen.

Unos ejemplos made in València. Caos 0, caos 50, caos 100.

Jlacort Tasty Paella At The Beach C5702a28 5ce3 43f2 8d57 B63afc0f5df2
Prompt: "Tasty paella at the beach --ar 3:2"
Jlacort Tasty Paella At The Beach 142060b8 5438 4d65 B429 E8c98c17510a
Prompt: Tasty paella at the beach --ar 3:2 --chaos 50"
Jlacort Tasty Paella At The Beach 705fc019 0b93 4e8f B43a 0d7535295b45
Prompt: "Tasty paella at the beach --ar 3:2 --chaos 100"

Otro ejemplo un poco más ilustrativo: un híbrido entre un murciélago y una mandarina. Caos 0, caos 50, caos 100. Depende de si quieres un resultado más tradicional, o uno más imaginativo.

Jlacort Bat Tangerine Hybrid 23514c4c F919 40d9 9a10 B119b3eb9682
Prompt: "Bat tangerine hybrid".
Jlacort Bat Tangerine Hybrid 4046a93d 9374 45fb Bfef 5d54bc27d172
Prompt: "Bat tangerine hybrid --chaos 50".
Jlacort Bat Tangerine Hybrid Ea75b07f 1eab 45e5 89e7 40916f8baae2
Prompt: "Bat tangerine hybrid --chaos 100".

Y algunas palabras clave

Para que siempre puedas acogerte a una serie de términos que si incluyes en tu prompt, te garantizarán un resultado en una dirección concreta.

  • Aerial photography: para ver un paisaje, una ciudad, etc. desde una vista cenital
  • Astrophotography: paisajes nocturnos que incluyan estrellas, nebulosas, etc. en el cielo.
  • Cinematic: aspecto cinematográfico
  • Closeup shot: genera primeros planos para imágenes realistas
  • Chromatic aberration: simula esta distorsión fotográfica
  • Cyberpunk: estilo de este subgénero de la ciencia ficción (paisajes artificiales, iluminaciones urbanas nocturnas, neones...)
  • Depth of field: profundidad de campo, fondo desenfocado
  • Diffraction grating: red de difracción, mejora las iluminaciones
  • Diffuse back light: simula la retroiluminación artificial mediante un foco difuso
  • Expressionism: simula arte expresionista
  • Fauvism: estilo artístico que usa el color de forma provocativa
  • Glitch art: estética de arte tradicional "roto" de forma digital
  • Glowing: crea una imagen brillante
  • HDR: alto rango dinámico
  • Hyper realistic: genera imágenes ultra realistas
  • Intricately-detailed: gran nivel de detalle
  • Lo-fi photography: fotografías hechas a propósito con aspecto de mala calidad, pero con el tipo de estética buscada (distorsionadas, borrosas, con fugas de luz, viñetas...)
  • Oil painting: genera imágenes que simulan pinturas al óleo
  • Pixel art: un poco de nostalgia por lo retro
  • Pop art: imágenes de este estilo artístico
  • Ray-traced / Ray tracing: empleo del algoritmo especializado en la generación de iluminaciones y sombras
  • Realistic lense flare: genera un destello de lente realista, como en una fotografía
  • Rococo: imágenes que representen este movimiento artístico
  • Scattering: dispersión, un efecto popular para ciertas fotografías o composiciones
  • Screen space reflections: técnica para calcular de forma óptima los reflejos sobre una superficie
  • SSAO: técnica de oclusión ambiental para mejorar las zonas sombreadas
  • Sunset / Sunset lightning: recrea la luz de un atardecer en la imagen
  • Ukiyo-e: genera imágenes que simulan esta técnica de estampación japonesa
  • Vintage: imágenes en sepia, de baja calidad, emulando fotografías muy antiguas
  • Watercolor: emula un cuadro pintado con acuarelas
  • X architecture (siendo 'X' un tipo de arquitectura): genera imágenes con ese estilo arquitectónico. Por ejemplo, 'stalinist architecture', 'scandinavian architecture', 'traditional japanese architecture' o 'minimalist architecture'.
  • XXXXs fashion (siendo 'XXXX' un número'): genera imágenes donde las personas aparecen vestidas y peinadas con la moda de la década que le indiquemos. Por ejemplo, '1970s fashion'.
  • XX mm lens (siendo 'XX' un número): genera imágenes que recrean fotos con una lente de la distancia focal que le indiquemos. Por ejemplo, '55 mm lens'.

Esta lista puede ser casi infinita. Cuanto mejor conozcas la ilustración, el arte y la fotografía, mejores prompts podrás redactar. No te limites a estos conceptos, piensa de forma amplia.

Y esto es todo. MidJourney ofrece posibilidades infinitas, su única limitación es nuestra imaginación y la capacidad que tengamos para poner palabras y términos adecuados a lo que aspiramos a crear. De la misma forma que podemos transmitir ideas mejor comunicadas y más complejas a menudo que enriquecemos nuestro vocabulario, la habilidad semántica es clave para manejar MidJourney de la mejor forma posible.

Imagen destacada: Javier Lacort con MidJourney.



via Robótica e IA - Xataka https://ift.tt/Xnx8v9Q

jueves, 23 de febrero de 2023

Stable Diffusion ya funciona en Android: Qualcomm saca pecho en una demostración técnica contundente

Stable Diffusion ya funciona en Android: Qualcomm saca pecho en una demostración técnica contundente

Los motores de inteligencia artificial generativa como Stable Diffusion llevan meses mostrando su espectacular potencial a la hora de crear imágenes alucinantes, pero hasta ahora su funcionamiento parecía requerir recursos ingentes. Qualcomm acaba de demostrar que sus chips se bastan y se sobran para ofrecer dicha opción.

De la nube al PC y al móvil. El modelo de Stable Diffusion hace uso de más de 1.000 millones de parámetros, y eso parecía obligar a que estuviese confinado en la nube o usado en PCs con potentes tarjetas gráficas capaces de manejar ese caudal de datos. Ahora Qualcomm ha logrado realizar diversas optimizaciones en ese modelo y ha mostrado que es posible usarlo en un smartphone Android.

Captura De Pantalla 2023 02 23 A Las 15 35 59

La optimización es clave. Como explican en Qualcomm, tomaron de partida el modelo Stable Diffusion v1-5 FP32 de Hugging Face y realizaron optimizaciones mediante cuantización (para reducir el modelo), compilación y aceleración hardware. Con ello lograron que el modelo, normalmente gigantesco en requisitos de almacenamiento, pudiera ejecutarse en un móvil gobernado por un Snapdragon 8 Gen 2.

Casi como lo usaras en la nube. Todos esos procesos permiten que Stable Diffusion genere imágenes de 512 x 512 píxeles con 20 pasos de inferencia en menos de 15 segundos, lo que según Qualcomm es comparable a la latencia que plantean los servicios en la nube que ofrecen esa generación de imágenes.

Esto es, sobre todo, una demo técnica. Poder usar Stable Diffusion en el móvil es sin duda sorprendente, pero aquí Qualcomm ha querido demostrar lo que son capaces tanto sus chips —en especial con el Hexagon integrado en los SoC Snapdragon— como su plataforma de desarrollo de servicios de IA.

La era del "Edge AI". Esto, afirman en la compañía, abre las puertas de esa nueva era de la inteligencia artificial en local, en el dispositivo, o como lo llaman los sajones, el "filo" ("Edge"). Hemos visto como empresas como Apple por ejemplo presumen de que Siri puede funcionar en local y sin conexión a la nube, y aquí Qualcomm plantea esa opción pero para propósitos más ambiciosos como el de las IA que generan imágenes.

Del móvil al coche. Y eso lleva a un futuro en el que este tipo de procesos sean factibles en otras plataformas como gafas de realidad mixta o coches conectados. "Ejecutar todo el procesamiento IA en la nube es demasiado costoso, y por eso el procesamiento eficiente de IA en local es tan importante". De hecho, hay otra ventaja más: la privacidad. Este tipo de demos evitan tener que usar servicios en la nube y que estos recolecten más datos de nuestra actividad.



via Robótica e IA - Xataka https://ift.tt/b7R06cO

Si la pregunta es "por qué Google aún no tiene un rival de ChatGPT", la respuesta es la de siempre: el dinero

Si la pregunta es

El éxito arrollador de ChatGPT ha convertido a Microsoft en la gran protagonista del segmento de la inteligencia artificial en las últimas semanas. El lanzamiento de Bing con ChatGPT está teniendo altibajos, pero está claro que su propuesta es real y al menos está permitiendo atisbar una potencial revolución en las búsquedas. Google va con pies de plomo con Bard, y ahora sabemos que hay una importante razón adicional por la que el gigante de las búsquedas va con mucho más tiento.

ChatGPT sale carísimo. Los usuarios no nos damos cuenta, pero desarrollar una plataforma como la que han puesto en marcha OpenAI o Microsoft es muy costoso. John Hennessy, presidente de Alphabet —matriz de Google—, explicaba en Reuters que tener una conversación con un motor como ChatGPT cuesta 10 veces más que una búsqueda estándar en un buscador de internet.

Estimaciones. Estudios de Morgan Stanley citados en ese texto indican que so Google desarrollara una inteligencia artificial similar a ChatGPT y con ella se gestionaran búsquedas y se respondiera en 50 palabras, el coste para Google sería de 6.000 millones de dólares al año. SemiAnalysis, otra consultora, estimaba justo la mitad, 3.000 millones de dólares al año para esa operativa.

OpenAI ya avisó. Sam Altman, CEO de OpenAI, ya explicó que el coste aproximado de cada chat era de menos de 10 centavos. Por eso la empresa ha querido empezar a rentabilizar el servicio cuanto antes y ha lanzado por ejemplo la versión "Plus" del motor de IA conversacional. Google

Y Google también. De hecho en el (desastroso) lanzamiento de Bard Google indicó que comenzaría con una versión "ligera" del modelo que "requiere mucho menos potencia computacional, permitiéndonos escalar a más usuario y permitiendo que haya más comentarios". El factor coste se une por lo tanto a esa amenaza de daño reputacional de la se habló antes del lanzamiento de Bard.

Microsoft se lo puede permitir. La cuota de mercado de Bing es de alrededor del 3%, lo que hace que salvo que su adopción se dispare, el coste del despliegue de Bing con ChatGPT supone un menor riesgo (y coste) económico para Microsoft. Su despliegue, de hecho, está siendo lento y gradual, lo que también podría estar motivado por ese elevado coste.

Hay que reducir costes. Hennessy explicaba que en Google están investigando formas de reducir el coste de esa operativa, algo que esperan resolver en dos años "en el peor de los casos". Ya hicieron algo parecido con YouTube cuando entre otras cosas desarrollaron sus propios chips de transcodificación.

Cómo lo monetizamos. Y luego está el otro problema, por supuesto. El motor de búsqueda tradicional se monetiza de forma clara con los resultados promocionados y patrocinados, pero la inserción de publicidad en textos tan directos y naturales como los de las respuestas de ChatGPT o Bing es más compleja. Aquí Microsoft, Google y el resto de este segmento —con Amazon a la cabeza— debe encontrar una solución para que esa revolución de los buscadores —si es que se produce— sea rentable.



via Robótica e IA - Xataka https://ift.tt/SeXIBuP

miércoles, 22 de febrero de 2023

Amazon también quiere competir con ChatGPT. Y para conseguirlo ha decidido aliarse con HuggingFace

Amazon también quiere competir con ChatGPT. Y para conseguirlo ha decidido aliarse con HuggingFace

La IA generativa está en auge. Pero esta tecnología tiene grandes obstáculos. Debido a que clasifican un gran volumen de contenido existente para crear algo nuevo, requieren una potencia informática enorme, entregada a través de la nube. Y encontrar a alguien con un servicio a la altura que permita esto es muy complicado. Pero para estas empresas esa necesidad es, sin duda, un filón de oro.

Si bien Microsoft, Google, OpenAI y otros tienen sus propios modelos de aprendizaje automático para procesar y generar texto, audio e imágenes, Amazon aún carece de ese frente, pero lo que sí tiene es una de las redes de computación en la nube más grandes del mundo. Así que, para superar este problema, Amazon Web Services (AWS), ha anunciado una asociación estratégica a largo plazo similar con Hugging Face.

Para quien no lo sepa, Hugging Face es uno de los ejes centrales del aprendizaje automático, con más de 100.000 modelos accesibles y gratuitos descargados más de 1 millón de veces al día por investigadores, científicos de datos e ingenieros.  AWS, por su lado, es uno de los mayores proveedor de computación en la nube, ya que ofrece herramientas para ayudar a los desarrolladores a crear software basado en IA, incluidos chips informáticos patentados que transmiten grandes cantidades de datos y reducen drásticamente el tiempo que lleva crear un chatbot u otros productos de IA.

A través de esta asociación, este servicio de IA podrá acceder a las herramientas de AWS (Amazon SageMaker, AWS Trainium, AWS Inferentia, etc) para entrenar, ajustar e implementar modelos en AWS de inteligencia artificial de próxima generación. El objetivo, dicen, es hacer los modelos de aprendizaje automático más accesibles para la comunidad con el mayor rendimiento al menor coste.

La guerra por liderar el mercado

Amazon quiere también, claro está, que esta alianza sirva para plantarle cara a ChatGPT, que ha supuesto un antes y un después en la visión que tiene mundo de la IA generativa. Todo esto mientras cada vez más firmas de tecnología se blindan de aliados en un mercado en auge.

Y, a medida que este sector crece, es más importante que nunca garantizar que todos los desarrolladores puedan acceder y evaluar los últimos modelos populares de IA generativa. Sin embargo, la mayoría de estos no están disponibles públicamente, lo que amplía la brecha de capacidades de aprendizaje automático entre las empresas tecnológicas más grandes y todos los demás. AWS y Hugging Face quieren contrarrestar esta tendencia y, según dicen, democratizar el aprendizaje automático.

Además, Hugging Face ha anunciado que construirá la próxima versión del modelo de lenguaje BLOOM en AWS, según explicaba Swami Sivasubramanian, vicepresidente de base de datos, análisis y aprendizaje automático en la unidad de nube de Amazon. Concretamente, la próxima generación de Bloom, un modelo de IA de código abierto que compite en tamaño y alcance con el modelo que OpenAI, respaldado por Microsoft, usó para crear ChatGPT, se ejecutará en Trainium, un chip de inteligencia artificial patentado creado por AWS.

Hay que comentar que esta asociación es parte de una tendencia creciente de acuerdos e inversiones que vinculan a los proveedores de nube más grandes con empresas que trabajan en IA generativa. El mes pasado, Microsoft Corp. llegó a un acuerdo para invertir en el fabricante de ChatGPT, OpenAI, que se dice que está valorado en 10.000 millones, y está utilizando la tecnología de la startup para la búsqueda de Bing.

A principios de mes, Google también invirtió casi 400 millones en el rival de OpenAI, Anthropic. Como podemos ver, está en juego la capacidad de vender servicios de computación en la nube para aprovechar el auge del interés en los programas generativos de IA. Y nadie quiere perderse este momentum.



via Robótica e IA - Xataka https://ift.tt/tlsJRGp