viernes, 29 de enero de 2021

Este robot es ruso y hace por nosotros el trabajo más peligroso que existe: repara el interior de los reactores nucleares

Este robot es ruso y hace por nosotros el trabajo más peligroso que existe: repara el interior de los reactores nucleares

La mayor parte de los reactores de fisión que utilizamos actualmente para generar energía eléctrica en las centrales nucleares es de tipo PWR (Pressurized Water Reactor). Para lidiar con el calor generado por las reacciones de fisión que tienen lugar en las barras de combustible y transportar la energía térmica hasta el alternador que va a producir la energía eléctrica recurren a tres complejos circuitos.

El circuito primario contiene el agua que está en contacto directo con las barras de combustible, y que, por tanto, está contaminada y es radiactiva. Su rol es crucial porque mantiene las barras refrigeradas para evitar que alcancen el umbral de temperatura en el que se fundirían y provocarían la fusión del núcleo, que fue lo que sucedió en el accidente de Chernóbil.

El circuito primario tiene una función esencial: extraer el calor de las barras de combustible para evitar que se fundan y provoquen la fusión del núcleo del reactor

El segundo circuito, el secundario, se responsabiliza de introducir en el intercambiador de calor del circuito primario el agua fría que debe absorber una parte de su energía térmica. Además, el circuito secundario produce el vapor necesario para transferir a la turbina la energía cinética que hará posible la obtención de electricidad gracias a la acción del alternador.

Y, por último, un tercer circuito de refrigeración se encarga de introducir en el depósito de condensación el agua fría necesaria para que el vapor del circuito secundario se condense. El agua de este tercer circuito procede del mar o de un río, por lo que es importante que la central nuclear esté cerca de estos recursos naturales. Si queréis conocer con todo detalle cómo funcionan estas centrales os sugiero que echéis un vistazo al artículo que enlazo aquí mismo.

Circuitosreactornuclear

El mantenimiento de la instalación es crucial y desafiante, pero tenemos ayuda

Hasta este momento hemos pasado por alto una circunstancia sorprendente: el agua del circuito primario, como acabamos de ver, está en contacto directo con las barras de combustible, por lo que al absorber su energía térmica alcanza una temperatura de 325 grados centígrados. ¿Cómo es posible entonces que no se evapore?

El elemento responsable de evitar que el agua del circuito primario pase de estado líquido a estado gaseoso es un dispositivo diseñado para incrementar la presión dentro de este circuito llamado presionador. Gracias a la presión que ejerce, el agua puede mantenerse en estado líquido a pesar de alcanzar una temperatura muy superior a los 100 grados centígrados a los que se evapora a la presión atmosférica que hay en el nivel del mar.

Gracias a un dispositivo llamado presionador el agua del circuito primario no se evapora a pesar de alcanzar una temperatura de 325 grados centígrados

Todo lo que hemos visto hasta ahora nos ayuda a entender lo importante que es mantener la integridad de estas instalaciones en general, y de los circuitos de refrigeración del reactor nuclear en particular. De hecho, periódicamente la actividad de las centrales nucleares se detiene para introducir en la vasija nuevo combustible, inspeccionar el estado de las instalaciones y llevar a cabo los procedimientos de mantenimiento que sean necesarios.

En las centrales nucleares de agua a presión como las que acabamos de describir es crucial que los depósitos del agua que actúa como elemento refrigerante estén en perfecto estado y no tengan la más mínima fuga. Sin embargo, es evidente que revisar su integridad estructural no es sencillo y conlleva riesgos para las personas involucradas por su cercanía a las barras de combustible. Además, como hemos visto, el agua del circuito primario está contaminada.

Pero tenemos ayuda. La empresa pública rusa Rosatom, que se responsabiliza de la gestión de las centrales nucleares rusas y de la regulación de la energía nuclear en este país, ha diseñado un robot que es capaz de acceder al interior de los depósitos de agua del reactor, incluida la vasija en la que residen las barras de combustible, para revisar la integridad estructural del revestimiento y repararlo si fuese necesario.

Según Rosatom este robot puede llevar a cabo su función sin necesidad de extraer el agua del circuito o descargar el combustible del reactor, por lo que el mantenimiento de la instalación es más rápido y más seguro para los técnicos involucrados en este proceso.

En el vídeo que publicamos encima de estas líneas podemos ver este robot en acción al compás de 'El cascanueces', de Tchaikovsky. Rosatom asegura que sus ingenieros lo han probado con éxito en la central nuclear de Leningrado, por lo que probablemente no tardará en operar en otras centrales nucleares tanto rusas como de otras naciones.

Más información | Rosatom



via Robótica e IA - Xataka https://ift.tt/36qFaD7

jueves, 28 de enero de 2021

El chatbot para hablar con personas muertas de Microsoft "es perturbador" y "no hay planes para desarrollarlo"

El chatbot para hablar con personas muertas de Microsoft

La semana pasada fue noticia que Microsoft había registrado una patente de un chatbot para hablar con personas muertas. La idea era usar contenido como "imágenes, grabaciones de voz, publicaciones en redes sociales y mensajes de correo electrónico" para crear una suerte de avatar digital con el que hablar, al más puro estilo 'Black Mirror'. La idea era un poco macabra y desde Microsoft han confirmado que no hay planes para producirla.

Tim O'Brien, defensor de política y ética de Microsoft, ha explicado en su perfil que la aplicación de la patente data del 11 de abril de 2017. Por aquellos entonces Microsoft no hacía las revisiones de ética de inteligencia artificial que hace ahora, y de eso O'Brien sabe bastante, porque forma parte del panel encargado de tales misivas. Además, afirma, "no tengo constancia de ningún plan para desarrollarlo o lanzarlo".

"Y sí, es perturbador"

O'Brien, además, no ha dudado en calificar el proyecto como "perturbador". En otro tweet se reafirma y asegura que "en cualquier caso, confirmo que no hay ningún plan para esto", tras lo cual bromea diciendo que "si alguna vez consigo un trabajo escribiendo para 'Black Mirror', sabré que debo ir al sitio web de la USPTO para obtener ideas para historias".

No obstante, sí ve ciertos beneficios en la preservación del legado. Pone como ejemplo este caso de la Fundación Shoah, que usó inteligencia artificial para desarrollar unos avatares de víctimas del Holocausto. Los avatares eran capaces de responder a las preguntas de los alumnos. Al hacer la pregunta, la IA buscaba la respuesta en una base de datos y ofrecía al alumno la más cercana. Lo cierto es que el resultado es de lo más interesante.

Ahora bien, O'Brien cree que hay "importantes cuestiones éticas a considerar, incluidos factores de forma, privacidad, control, innumerables formas en que los malos actores podrían usar / usarían [la tecnología], y muchos más". Por ello, concluye, "no es un escenario en el que estemos trabajando".

Sea como fuere, ya conocemos algunos casos de recreaciones de personas fallecidas con las que interactuar. Un caso llamativo fue el de esta madre, que tuvo ocasión de hablar con su hija fallecida en realidad virtual. En The Independent exponen otros, como el holograma del difunto padre de Kim Kardashian que Kanye West le regaló por su 40 cumpleaños; o el chatbot de Roman Mazurenko.

Vía | CNN



via Robótica e IA - Xataka https://ift.tt/3cgTLVm

lunes, 25 de enero de 2021

DAL-e: el nuevo robot de atención al cliente de Hyundai habla, se mueve y hasta reconoce caras

DAL-e: el nuevo robot de atención al cliente de Hyundai habla, se mueve y hasta reconoce caras

Hyundai, que recientemente ha comprado Boston Dynamics, acaba de anunciar un nuevo e interesante robot: DAL-e-. DAL-e, que es un acrónimo de "Drive you, Assist you, Link with you-experience", es un robot de atención al cliente que la compañía ya está probando en fase piloto y que, afirman, está diseñado para ser pionero en los servicios de atención al cliente automatizados.

El dispositivo ha sido anunciado en el Hyundai Motor Showroom de Seúl, donde el robot ya está funcionando. Desde Hyundai esperan que se pueda usar en otros contextos en los que sea necesaria la interacción con clientes, como otras demostraciones de Hyundai Motor Company y Kia Corporation. Y es que el robot se puede mover y ofrecer asistencia a los participantes de un evento, como llevarlos a determinado sitio o dar información sobre un producto.

Así es el nuevo robot de Huawei

DAL-e

DAL-e es un robot de aspecto semihumanoide que mide 1.160 x 600 x 600 mm y pesa 80 kilos. Está equipado con inteligencia artificial para ser capaz de reconocer las caras y, además, cuenta con un sistema de comunicación automática basado en una plataforma de comprensión del lenguaje. Su objetivo es ofrecer un servicio de atención al cliente a aquellas personas que prefieran no tener contacto con otra persona debido a las circunstancias derivadas de la pandemia, explican desde Hyundai.

Desde la compañía explican que el robot puede detectar varias cosas, como que un cliente no tiene mascarilla, para aconsejarle que se ponga una. Y hablando de decir cosas, Hyundai asegura que DAL-e es capaz de "entablar un diálogo automatizado y fluido con los clientes" para ofrecerles información sobre productos y servicios, así como responder a órdenes verbales y táctiles.

El robot está equipado con rasgos faciales "amables y emotivos" para interactuar de cerca con los clientes. En la parte superior tiene una pantalla que muestra los ojos y, justo encima de la cabeza, otra pantalla que puede servir como panel de información. En el pecho tiene una tercera pantalla que, por las imágenes, se mueve cuando el robot habla.

DAL-e, por supuesto, puede moverse. En sus cuatro patas inferiores tiene unas ruedas omnidireccionales que sirven para que el robot vaya a una cierta posición, y que incluso acompañe a un asistente a determinado expositor. Los brazos también se mueven.

DAL-e

Hyundai afirma que tiene previsto actualizar continuamente a DAL-e basándose en "los datos de las operaciones piloto", de forma que el dispositivo se irá perfeccionando conforme más trabaje. Por el momento Hyundai no ha anunciado que tenga planes de comercialización, así que seguramente, al menos en una primera fase, solo sea posible ver a DAL-e los eventos de Hyundai y KIA.

Más información | Hyundai



via Robótica e IA - Xataka https://ift.tt/2M3bSmP

viernes, 22 de enero de 2021

Microsoft patenta un chatbot que permitirá hablar con personas que han muerto

Microsoft patenta un chatbot que permitirá hablar con personas que han muerto

A Microsoft no parece bastarle con que sea posible resucitar a Lola Flores a golpe de deepfakes. La empresa ha registrado una patente diseñada para crear chatbots que te permitan hablar con personas fallecidas.

Para ello usará contenido consistente en "imágenes, grabaciones de voz, publicaciones en redes sociales y mensajes de correo electrónico" para crear esa especie de avatar con el que poder chatear.

Incluso podrás ver a esa persona en 2D o 3D

La idea parece algo macabra y más propia de algún tipo de distopía, y de hecho fue el tema central del episodio (1º de la segunda temporada de Black Mirror) titulado 'Be Right Back'.

En una aproximación a lo que se planteaba allí, Microsoft haría uso de esos datos de la persona fallecida con un sistema de inteligencia artificial que aprovechando esos contenidos trataría de replicar la forma de hablar que tendría la persona fallecida.

En Microsoft incluso mencionan la capacidad de crear modelos 2D o 3D basándose en imágenes y vídeos de esas personas. La patente ciertamente tiene un componente polémico, pero con ella sería posible también recrear figuras históricas o simplemente personajes ficticios.

Como explican en la patente, "la persona podría corresponder a una entidad presente o pasada (o una versión de ella) como un amigo, un familiar, un conocido, una celebridad, una figura histórica, un personaje de ficción o una entidad aleatoria".

Desde luego y como señalan en WindowsCentral, en Microsoft ya han tenido algún tropiezo importante en el área de los chatbots. Su experimento con Tay, el bot para compartir mensajes en Twitter, acabó difundiendo mensajes racistas y fue uno de los momentos álgidos de aquella fiebre por el chatbot que vivimos hace unos años.

Vía | WindowsCentral



via Robótica e IA - Xataka https://ift.tt/39ZdmGC

jueves, 21 de enero de 2021

Hablan los creadores del 'deepfake' de Lola Flores: "Pese a usar Inteligencia Artificial fue un proceso bastante artesanal"

Hablan los creadores del 'deepfake' de Lola Flores:

El deepfake de Lola Flores que protagoniza la nueva campaña de Cruzcampo es sencillamente espectacular. Dejando atrás valles inquietantes y fallas técnicas, la réplica virtual de una de nuestras artistas más legendarias demuestra —como ya lo hicieron las impresionantes versiones juveniles de los protagonistas de '30 monedas'— que España es una auténtica potencia en la creación de deepfakes. En este caso, el resultado lo tenía todo a su favor: apoyo de la familia (también aportando material gráfico), tiempo suficiente y una marca potente detrás para financiar el proceso.

Ogilvy es la agencia publicitaria que se encuentra detrás del proyecto, y Metropolitana el estudio de efectos especiales y postproducción que lo ha llevado a cabo. Un deepfake made in Barcelona. Hemos hablado con Juan Pedro Moreno y Javi Senovilla, directores creativos de la campaña de la primera; y Ramon Arteman y Nico Roig, director y miembro del departamento de 3D respectivamente de la segunda para que nos den detalles sobre el proceso y expliquen qué dificultades han tenido que ir superando hasta llegar al resultado final.

5.000 imágenes de Lola y dos softwares para pulir la imagen

El proyecto, nos cuenta Juan Pedro Moreno, director creativo del spot, ha sido largo, ya que el plan era que la campaña saliera en marzo del año pasado, "pero la pandemia nos ha dado margen para tener cierto margen de maniobra y pulir hasta el más mínimo detalle". El proceso técnico del deepfake en sí, no obstante, ha sido mucho más breve: apenas "tres o cuatro semanas", que se alargaron algo más porque sus clientes quisieron "ir haciendo pruebas, cambiando fondos, viendo distintos ajustes". Y al contar con tiempo extra gracias al retraso provocado por la pandemia, pudieron aumentar el tiempo dedicado a los retoques finales y los detalles más nimios.

Para empezar, Metropolitana tuvo que recopilar imágenes que sirvieran de base: "La idea era tener la mayor cantidad posible de rangos de ángulos de la cara y expresiones. Todas las horas que teníamos de metraje se reducían a unas 5.000 imágenes aproximadamente con las que alimentamos la inteligencia artificial", cuenta Ramón Arteman, director y cofundador de Metropolitana. Ese metraje traía un problema: "Lo delicado era la resolución, las imágenes estaban en PAL en baja resolución, lo que llevó a la obtención de un material que no siempre tenía la mejor calidad que queríamos para el plano", así que hubo que retocar muchas de ellas para optimizarlas.

El hecho de que Lola Flores tuviese una carrera tan prolongada en el tiempo fue, paradójicamente, problemático: "Una dificultad añadida fue que había muchas imágenes de toda la vida de Lola Flores, pero teníamos que escoger una época concreta que sirviera de referencia, algo que hicimos entre nosotros, la agencia y la propia familia. Nos presentaron unas cien fotos y nos preguntaron cuál nos gustaba. Cogimos una imagen de Lola que fue como un tótem", explica Ramón.

Lola Flores 1 Primera imagen pactada entre todas las partes de la producción y la familia de Lola Flores que serviría como referencia para crear el deepfake. Imagen cedida por Metropolitana.

Esa primera referencia fue una foto de Lola cuando tenía unos cincuenta años, pero finalmente se consensuó otra algo posterior y en mayor calidad. "Esa foto la tenemos como el Santo Grial. A partir de ella comparábamos ojos, cejas, el mentón, la figura general... Esa fue la foto que no dejábamos de mirar para comparar el resultado que íbamos logrando", explica el director de Metropolitana.

El siguiente paso fue grabar a una actriz creando un modelo 3D, "un molde sobre el que se iría tejiendo un entramado quirúrgico sobre el que se recrearía el rostro de Lola", nos comenta Javier Senovilla, uno de los directores creativos del spot. La actriz sería la base de todos los gestos sobre los que luego irían las imágenes de la Lola Flores real, "que luego se perfilaría retocando digitalmente expresiones de la cantante y detalles de la piel, como la parte de la unión del cabello con la frente, que hubo que retocar por separado para salvar las diferencias entre el físico de la modelo y el de Lola Flores", afirma Roig.

Lola Flores 2 A la izquierda, la imagen que fue finalmente la usada como referencia por parte del equipo encargado del deepfake, con Lola Flores en torno a su cincuentena. A la derecha, un frame del resultado final. Imagen cedida por Metropolitana.

En este proceso se usaron dos programas específicos para crear deepfakes. Por un lado, FaceSwap, un software de código abierto basado en TensorFlow, Keras y Python. Tiene una apariencia muy visual que facilita el trabajo, al menos en una primera fase. Para la segunda fase se requería algo que permitiese profundizar mucho más en los detalles, de forma más artesanal, y usando código. Ese segundo software fue DeepFaceLab, utilizado para esos largos retoques finales.

Nico Roig, del departamento 3D de Metropolitana y uno de los encargados de devolver a Lola Flores a la vida en cierta forma, explica que "DeepFaceLab nos daba mejor resultado a la hora de controlar todos los parámetros, que es el quid de la cuestión", y que "el retoque final, no solo del deepfake sino de su integración final, composición, etc; nos llevó casi tanto tiempo como el propio deepfake. El último 10% supuso casi tanto tiempo como todo lo anterior. Tener tiempo es lo que permitió trabajarlo así para tener contento a todo el mundo: a Cruzcampo, a la agencia, al equipo de producción, al director, a la familia de Lola...".

Arriba, grabaciones de la actriz en la que se basa el Arriba, grabaciones de la actriz en la que se basa el 'deepfake'. Abajo, metraje de Lola Flores en posiciones similares a las de la actriz.

Esta última parte, la familia, fue clave desde el mismo principio, cuando era solo un guión: Javier Senovilla, codirector creativo del spot, nos cuenta que "Rosario Flores nos dijo que no cambiáramos ni una coma, son cosas que mi madre habría podido decir". A partir de ahí fueron asesorando en detalles tan nimios como la corrección de gestos, la forma de las cejas "o comentarios que nosotros nunca habríamos tenido en cuenta, como que la raya del peinado nunca la habría llevado enmedio", comenta. Incluso Lolita imitó la voz de su madre en un proceso que también pasó por una profunda postproducción. "Luego íbamos experimentando con la grabación", afirma Moreno, "haciendo pruebas con limitadores para modificar el tono, y mediante un software especial fuimos modulando el timbre para acercarlo al original"

En ese trabajo final entraron retoques poco apreciables para quien ve el anuncio, pero propios de quien presta atención al detalle, como optimizar la mirada para que fuese "más felina" o ajustar el tamaño de las orejas, ya que las de la actriz no encajaban del todo en las de Lola. También hicieron a propósito una obstrucción de la cara con las manos, algo que no se hace en el deepfake "tradicional" (todas las comillas del mundo para hablar de un "deepfake tradicional") para, según Nico, "convencer a los indecisos". "Fue un proceso bastante artesanal y subjetivo", concluye.

Durante los últimos meses, con el vídeo en desarrollo o ya creado y a la espera de que arrancase la campaña publicitaria, desde Metropolitana esperaban con ganas el momento de que viese la luz. "No esperábamos que hiciese tanto ruido, la respuesta está siendo genial", cuenta Ramón. 16.000 retuits y 30.000 'me gusta' en sus primeras cinco horas publicado en Twitter. En ese tiempo de espera pudieron probar su efectividad enseñando el spot a quienes no conocieran la naturaleza del deepfake, siempre con buenos resultados: pero comenta Moreno que "se nos disipaban todas las dudas cuando sus propias hijas daban el visto bueno a la recreación que habíamos hecho".



via Robótica e IA - Xataka https://ift.tt/3sOkKgH

Lola Flores vuelve a escena gracias a los deepfakes en el nuevo anuncio de Cruzcampo

Lola Flores vuelve a escena gracias a los deepfakes en el nuevo anuncio de Cruzcampo

Tal día como hoy, pero en 1923, nació en Cádiz Lola Flores, una de las máximas exponentes del flamenco andaluz. Desgraciadamente, la Faraona falleció el 16 de mayo de 1995, pero ahora vuelve a escena gracias a la tecnología deepfake con motivo de la nueva campaña de Cruzcampo, "Con mucho acento"

Tal y como explican en el comunicado, para conseguir la voz, el rostro y los gestos de la artista han sido necesarias "horas y horas de material audiovisual", más de 5.000 imágenes y un "minucioso proceso de composición y postproducción". La cervecera sevillana explica que tanto Lolita como Rosario Flores, sus hijas, han asesorado y participado en la elaboración del vídeo, cuyo resultado es, sencillamente, fascinante.

Lola Flores vuelve

A lo largo del vídeo, Lola Flores, o mejor dicho, su recreación mediante inteligencia artificial, reivindica y pone en valor el acento andaluz. Lo hace emulando casi a la perfección su voz, su acento, sus gestos y su rostro. El ejemplo más claro es cuando pronuncia la siguiente frase:

"Acento es que se te vean las costuras y los dobladillos, que se te escuche hasta el hipo. Da igual si eres de la Conchinchina o de la Línea de la Concepción [...], manosea tus raíces, que de ahí siempre salen cosas buenas".

Según explican desde Cruzcampo, la campaña comenzó a gestarse hace tiempo, pero se vio afectada por la pandemia. El 12 de marzo estaba grabando en Málaga junto a María José Llergo, la joven artista cordobesa que recoge el testigo de Lola Flores en el vídeo, así que se puede intuir que el spot, de apenas un minuto, ha llevado varios meses de trabajo.

En desarrollo...



via Robótica e IA - Xataka https://ift.tt/3p6Iz13

jueves, 14 de enero de 2021

Creando Inteligencias Artificiales más espontáneas

Las funciones autónomas de los robots, como la espontaneidad, son muy buscadas. Muchos mecanismos de control de los robots autónomos están inspirados en las funciones de los animales, incluidos los humanos. Los especialistas en robótica a menudo diseñan comportamientos de robots utilizando módulos predefinidos y metodologías de control, lo que los hace específicos en diversas tareas, algo que también limita su flexibilidad.

Sin embargo, ahora, los investigadores ofrecen un método alternativo basado en el aprendizaje automático para diseñar comportamientos espontáneos aprovechando patrones temporales complejos, como las actividades neuronales del cerebro de los animales. Esperan ver su diseño implementado en plataformas robóticas para mejorar sus capacidades autónomas.

Creando Inteligencias Artificiales más espontáneas

Los robots y su software de control se pueden clasificar como un sistema dinámico, un modelo matemático que describe los estados internos en constante cambio. Existe una clase de sistema dinámico llamado caos de alta dimensión, que ha atraído a muchos investigadores ya que es una forma poderosa de modelar cerebros animales. Sin embargo, generalmente es difícil controlar el caos de alta dimensión debido a la complejidad de los parámetros del sistema y su sensibilidad a las condiciones iniciales variables, un fenómeno popularizado por el término “efecto mariposa”.

Ante esto, investigadores del Laboratorio de Informática y Sistemas Inteligentes y el Centro de Investigación de Inteligencia Artificial de Próxima Generación de la Universidad de Tokio exploran formas novedosas de explotar la dinámica del caos de alta dimensión para implementar funciones cognitivas similares a las humanas.

“Hay un aspecto del caos de alta dimensión llamado itinerancia caótica (IC) que puede explicar la actividad cerebral durante el recuerdo y la asociación”, dijo el estudiante de doctorado Katsuma Inoue.”

“En robótica, la IC ha sido una herramienta clave para implementar patrones de comportamiento espontáneos. En este estudio, proponemos una receta para implementar la IC de una manera simple y sistemática utilizando únicamente patrones complicados de series de tiempo generados por el caos de alta dimensión. El enfoque tiene potencial para aplicaciones más robustas y versátiles cuando se trata de diseñar arquitecturas cognitivas. Nos permite diseñar comportamientos espontáneos sin estructuras explícitas predefinidas en el controlador, que de otra manera servirían como un obstáculo”.

La computación de reservorio (RC) es una técnica de aprendizaje automático que se basa en la teoría de sistemas dinámicos y proporciona la base del enfoque del equipo. RC se utiliza para controlar un tipo de red neuronal llamada red neuronal recurrente (RNN). A diferencia de otros enfoques de aprendizaje automático que sintonizan todas las conexiones neuronales dentro de una red neuronal, RC solo ajusta algunos parámetros mientras mantiene fijas todas las demás conexiones de un RNN, lo que hace posible entrenar el sistema más rápido.

Cuando los investigadores aplicaron los principios de RC a un RNN caótico, exhibió el tipo de patrones de comportamiento espontáneos que esperaban. Durante algún tiempo, esto ha demostrado ser una tarea desafiante en el campo de la robótica y la inteligencia artificial. Además, la formación para la red se lleva a cabo antes de la ejecución y en poco tiempo.

“Los cerebros de los animales producen un caos de alta dimensión en sus actividades, pero no se explica cómo y por qué utilizan el caos. Nuestro modelo propuesto podría ofrecer información sobre cómo el caos contribuye al procesamiento de la información en nuestros cerebros”, dijo el profesor asociado Kohei Nakajima.

“Además, nuestra receta tendría un impacto más amplio fuera del campo de la neurociencia, ya que potencialmente también se puede aplicar a otros sistemas caóticos. Por ejemplo, los dispositivos neuromórficos de próxima generación inspirados en neuronas biológicas exhiben potencialmente un caos de alta dimensión y serían excelentes candidatos para implementar nuestra receta. Espero que veamos implementaciones artificiales de las funciones cerebrales en poco tiempo”.

La entrada Creando Inteligencias Artificiales más espontáneas se publicó primero en IntelDig.



via IntelDig https://ift.tt/35H4d4o

martes, 12 de enero de 2021

El nuevo robot de Samsung sirve copas y recoge los platos sucios

Anunciado en el CES de Las Vegas, este robot está pensando para facilitarnos la vida y forma parte de la visión de la compañía de un nuevo hogar conectado Leer

via Tecnología // elmundo https://ift.tt/39qkdIT

lunes, 11 de enero de 2021

Samsung Bot Care y Bot Handy: estos robots para el hogar quieren ser nuestro asistente personal y encargarse de las tareas domésticas

Samsung Bot Care y Bot Handy: estos robots para el hogar quieren ser nuestro asistente personal y encargarse de las tareas domésticas

Hace tiempo que los robots domésticos conquistaron nuestros hogares. El espectacular desarrollo que ha experimentado la inteligencia artificial durante la última década ha hecho posible que los consumidores actualmente podamos hacernos con un robot aspirador, fregasuelos o de cocina, entre otras opciones, muy avanzado y con un precio razonable. Sin embargo, estos dispositivos aún están muy lejos de los asistentes del hogar robóticos que vemos en las películas de ciencia ficción.

Durante su presentación en el CES virtual que ha arrancado hoy Samsung ha dado un paso hacia delante sorprendente en el ámbito de la robótica doméstica. Y es que ha dado a conocer dos robots para el hogar dotados de inteligencia artificial y diseñados para actuar como un asistente personal y encargarse de muchas de las tareas domésticas que sin duda la mayor parte de los usuarios agradeceríamos quitarnos de encima. Son los robots Bot Care y Bot Handy, y sí, son sorprendentes.

Samsung Bot Care: un asistente personal diseñado para aprender nuestros hábitos

Lo que Samsung nos ha prometido durante la presentación de este robot doméstico no deja indiferente. Y es que según la marca surcoreana este dispositivo ha sido diseñado para comportarse como un asistente personal capaz de identificar nuestros hábitos, aprenderlos y tomar decisiones en nuestro beneficio a partir de ellos. Si, por ejemplo, pasamos demasiado tiempo cada día delante del ordenador nos avisará por iniciativa propia para que seamos conscientes de que quizá deberíamos tomarnos un descanso.

Samsungbotcare1

La inteligencia artificial de este robot le permite desplazarse por nuestra casa e identificar los objetos de nuestro entorno, pero su propósito no es interactuar con ellos; lo que persigue es procesar toda la información posible y asimilar aquellas tareas que solemos llevar a cabo para ayudarnos a sacarlas adelante de una forma más cómoda. Además, su capacidad de memorización de nuestros horarios le permite habilitar recordatorios que pueden ayudarnos a no pasar nada importante por alto.

Durante la presentación de Samsung hemos podido ver que incorpora una pantalla con un tamaño respetable en la que, además de mostrarnos información acerca de nuestras rutinas, hábitos y recordatorios, puede mostrarnos videollamadas y contenido de vídeo. La marca surcoreana ha hecho hincapié en que solo nos ha enseñado algunas de las capacidades de este robot, pero no cabe duda de que si resuelve bien lo que promete es un dispositivo al que merece la pena seguir la pista.

Samsungbotcare2

Samsung Bot Handy: este robot quiere que nos olvidemos de algunas tareas domésticas

El segundo robot para el hogar que nos ha enseñado Samsung hoy es si cabe más sorprendente que el que acabamos de conocer. Y es que Bot Handy incorpora un brazo con una pinza articulada que le permite identificar objetos, agarrarlos e interactuar con el entorno. Durante la presentación hemos podido ver cómo sacaba platos y vasos de un fregadero y los iba colocando meticulosamente en el interior de un lavavajillas, lo que refleja que incorpora una inteligencia artificial avanzada y algoritmos de reconocimiento de imagen cuando menos prometedores.

Samsungbothandy1

El propósito de este robot doméstico es hacerse cargo de algunas de las tareas de las que la mayor parte de los usuarios preferiríamos no tener que ocuparnos. Meter los platos y los vasos en el lavavajillas es solo una de ellas, pero según Samsung este ingenio también puede desplazar objetos de un lugar a otro, limpiar, colocar nuestra ropa, etc. Verlo en acción es bastante impresionante, así que solo nos queda esperar que en un escenario de uso real rinda tan bien como lo hace en el vídeo que nos ha preparado Samsung.

Samsungbothandy2

Samsung Bot Care y Bot Handy: precio y disponibilidad

Samsung ha confirmado que sus robots Bot Care y Bot Handy están en desarrollo, por lo que todavía no sabemos cuándo estarán disponibles para que podamos comprarlos, y tampoco cuánto costarán. Eso sí, son demasiado interesantes para perderles la pista, así que estaremos pendientes de ellos para contaros más cuando tengamos nueva información.



via Robótica e IA - Xataka https://ift.tt/3scdsmF

miércoles, 6 de enero de 2021

La IA de las tarjetas gráficas de NVIDIA, a prueba: analizamos el impacto de DLSS 2.0 en el rendimiento y la calidad de imagen

La IA de las tarjetas gráficas de NVIDIA, a prueba: analizamos el impacto de DLSS 2.0 en el rendimiento y la calidad de imagen

La tecnología DLSS (Deep Learning Super Sampling) de NVIDIA llegó junto a la primera generación de tarjetas gráficas GeForce RTX de esta marca con una promesa bajo el brazo: permitirnos disfrutar nuestros videojuegos con una cadencia de imágenes por segundo más alta aunque nuestras exigencias gráficas fuesen muy ambiciosas. Incluso al activar el trazado de rayos.

DLSS se presentó como la baza que ponía en las manos de los usuarios la posibilidad de no renunciar a nada. Ni al ray tracing. Ni a la alta resolución. Y tampoco a una cadencia de imágenes sostenida elevada. Pero la primera versión de esta tecnología nos dejó un sabor de boca agridulce. Tenía un impacto perceptible y positivo en el rendimiento, pero la calidad de imagen de los primeros juegos que la implementaron era sensiblemente más baja que la que obteníamos cuando prescindíamos de ella.

En agosto de 2019, y solo unos meses después del lanzamiento de la primera revisión de la tecnología DLSS, NVIDIA presentó la primera iteración de DLSS 2.0

Podíamos verlo con claridad si nos fijábamos en el nivel de detalle, que era más bajo al activarla. Algunos fotogramas tenían incluso un mayor nivel de ruido. Era evidente que NVIDIA tenía que pulir más esta innovación. Y lo hizo. En agosto de 2019, y solo unos meses después del lanzamiento de la primera revisión de la tecnología DLSS, NVIDIA presentó la primera iteración de DLSS 2.0.

Algunos usuarios la acogimos con cierto escepticismo porque la versión original no había estado a la altura de las expectativas que habíamos depositado en ella al dejarnos llevar por lo que nos prometió NVIDIA. Pero DLSS 2.0 era diferente a su predecesora. Tenía su misma base tecnológica, pero había sido refinada hasta el punto de superarla con claridad. En este artículo nos hemos propuesto poner a prueba qué nos ofrece actualmente esta tecnología de reconstrucción de la imagen.

DLSS 2.0: así funciona y esta es su estrategia

El propósito que persigue esta innovación consiste en liberar a la GPU de una parte del esfuerzo que conlleva el renderizado de las imágenes para incrementar la cadencia de fotogramas por segundo sin que se resienta la calidad gráfica.

La idea es ambiciosa, y, como los usuarios podemos intuir, la tecnología que la hace posible es compleja. De hecho, la técnica de reconstrucción de la imagen empleada por NVIDIA recurre al análisis en tiempo real de los fotogramas de nuestros juegos utilizando algoritmos de aprendizaje profundo.

Los núcleos Tensor están especializados en resolver operaciones matriciales que admiten una gran paralelización y han sido diseñados para ejecutar de forma eficiente los algoritmos de aprendizaje profundo

Únicamente los procesadores GeForce RTX de las series 20 y 30 de NVIDIA son compatibles con DLSS, y lo son, entre otras razones, porque incorporan núcleos Tensor. Estas unidades funcionales están especializadas en resolver operaciones matriciales que admiten una gran paralelización, y han sido diseñadas expresamente para ejecutar de forma eficiente las operaciones que requieren los algoritmos de aprendizaje profundo y la computación de alto rendimiento.

Esta técnica adquiere más relevancia a medida que el procesador gráfico se ve estresado con más intensidad, una circunstancia que se produce de una forma muy rotunda cuando el motor gráfico debe renderizar las imágenes a una resolución muy alta, y, además, le pedimos que utilice el trazado de rayos para recrear la luz y los reflejos con el máximo realismo posible.

Para una GPU que carece de hardware dedicado el ray tracing es una auténtica tortura debido al enorme esfuerzo de cálculo que debe hacer. Y esta exigencia puede penalizar muy seriamente la cadencia de imágenes por segundo que nos entrega.

Tensorcore

La estrategia utilizada por NVIDIA para aliviar el esfuerzo que debe realizar la GPU es similar a la que emplean otros fabricantes de hardware gráfico: la resolución de renderizado es inferior a la resolución de salida que finalmente entrega la tarjeta gráfica a nuestro monitor.

De esta forma el estrés al que se ve sometido el procesador gráfico es menor, pero a cambio es necesario recurrir a un procedimiento que se encargue de escalar cada uno de los fotogramas desde la resolución de renderizado hasta la resolución final. Y, además, debe hacerlo de una forma eficiente porque, de lo contrario, el esfuerzo que hemos evitado en la etapa anterior podría aparecer en esta fase de la generación de las imágenes.

El motor renderiza las imágenes a una resolución inferior a la que esperamos obtener, y después DLSS las escala a la resolución final aplicando muestreo mediante aprendizaje profundo

Esta es la fase en la que entra en acción la inteligencia artificial que ha puesto a punto NVIDIA. Y los núcleos Tensor de la GPU. El motor gráfico renderiza las imágenes a una resolución inferior a la que esperamos obtener, y después la tecnología DLSS escala cada fotograma a la resolución final aplicando una técnica de muestreo mediante aprendizaje profundo para intentar recuperar el máximo nivel de detalle posible.

Si lo que queremos es, por ejemplo, disfrutar gráficos 4K y activamos el DLSS priorizando el rendimiento es posible que la resolución de renderizado sea 1920 x 1080 puntos, u otra similar. A partir de ahí será el algoritmo de aprendizaje profundo el responsable de generar un fotograma 4K a partir de cada fotograma 1080p.

La elección de un modo u otro cuando nos decidimos a activar la tecnología DLSS puede tener un impacto claramente perceptible en el rendimiento de la tarjeta gráfica, pero es importante que analicemos también el impacto que tienen estos modos en la calidad de imagen para que podamos valorar qué modalidad encaja mejor con nuestras preferencias. Y cuál nos ofrece un rendimiento acorde a nuestras expectativas. En las siguientes secciones de este artículo indagaremos en el impacto que tiene DLSS 2.0 tanto en la calidad de imagen como en el rendimiento de la GPU.

Vectoresmovimiento

No obstante, antes de seguir adelante es interesante que nos detengamos un momento para repasar cómo funciona el muestreo mediante aprendizaje profundo utilizado por NVIDIA en sus tarjetas gráficas. El corazón de la tecnología DLSS es una red neuronal artificial que previamente ha sido entrenada mediante el análisis de miles de fotogramas en alta resolución con un propósito: desarrollar un método de escalado que permita a la red neuronal transformar las imágenes con una resolución inferior que le suministramos como entrada en fotogramas con una resolución y un nivel de detalle más altos.

El conocimiento que infiere de las imágenes en alta y baja resolución con las que ha sido entrenada previamente es el que le permite reconstruir con precisión la imagen que necesitamos escalar (NVIDIA ha confirmado que trabaja con fotogramas con resolución 16K).

El corazón de la tecnología DLSS es una red neuronal artificial que previamente ha sido entrenada mediante el análisis de miles de fotogramas en alta y baja resolución

El algoritmo de aprendizaje y la base de datos de imágenes que recibe la red neuronal para llevar a cabo su entrenamiento condicionan profundamente la calidad de las imágenes que nos va a entregar después de llevar a cabo el procedimiento de reconstrucción. De hecho, es muy probable que estas sean las áreas en las que NVIDIA más ha trabajado para conseguir que DLSS 2.0 rinda mejor que la primera generación de esta tecnología.

Además, es posible actuar sobre el modelo de entrenamiento y la base de datos de imágenes en alta y baja resolución con la que trabaja para seguir refinando aún más esta innovación, por lo que es probable que las próximas revisiones de esta tecnología rindan mejor que DLSS 2.0.

No obstante, hay un componente esencial del que todavía no hemos hablado: los vectores de movimiento. El conocimiento inferido por la red neuronal a partir del análisis de los fotogramas en alta y baja resolución, y también el procedimiento utilizado para obtener una imagen en alta resolución a partir de otra con una resolución más baja se almacenan en el controlador de la tarjeta gráfica.

Los núcleos Tensor de la GPU se encargan de asumir la mayor parte de la carga de trabajo que requiere la reconstrucción de la imagen, pero no reciben como entrada únicamente los fotogramas en baja resolución renderizados por el motor del juego; también se alimentan de los vectores de movimiento generados por ese mismo motor.

Un vector de movimiento es un objeto que describe matemáticamente en qué dirección se desplaza cada elemento de una escena durante la transición de un fotograma al siguiente. El algoritmo de reconstrucción con el que trabaja la red neuronal es capaz de tomar el último fotograma en alta resolución que ha generado y los vectores de movimiento que le entrega el motor del juego para identificar cómo será el siguiente fotograma que debe recrear.

De esta forma consigue seleccionar el método de reconstrucción idóneo para escalar la imagen en baja resolución al fotograma en alta resolución que espera obtener. La imagen que publicamos encima de estas líneas describe cómo funciona DLSS 2.0. Un último apunte: la red convolucional que aparece en esta diapositiva es un tipo de red neuronal artificial especializado en aplicaciones de visión por ordenador o visión técnica.

Ponemos a prueba el impacto de DLSS 2.0 en la calidad de imagen

La tarjeta gráfica que hemos utilizado para evaluar el impacto que tiene la tecnología DLSS 2.0 en la calidad gráfica es una GeForce RTX 3080 Founders Edition, pero es importante que tengamos en cuenta que otra tarjeta gráfica con la misma arquitectura nos entregará la misma calidad de imagen si utilizamos los mismos ajustes en nuestros juegos.

Las capturas que vamos a analizar han sido tomadas a resolución 4K y con el trazado de rayos activado

Esto quiere decir, sencillamente, que una GeForce RTX 3060 Ti puede entregarnos la misma calidad de imagen que una GeForce RTX 3080 si utilizamos los mismos ajustes gráficos, pero, como es lógico, la cadencia de imágenes que alcanzarán ambas tarjetas será sensiblemente diferente. Ante una misma exigencia gráfica la RTX 3080 debería rendir mejor que la RTX 3060 Ti.

Todas las capturas que vamos a analizar a continuación han sido tomadas a resolución 4K (3840 x 2160 puntos) y con el trazado de rayos activado en aquellos juegos que lo implementan. Además, las secciones de cada captura que hemos escogido proceden de un recorte al 300% que persigue ayudarnos a apreciar mejor los detalles y las diferencias que existen entre ellas.

Empezamos con 'Control'. Este juego implementa tanto trazado de rayos como DLSS. Además, nos propone varias modalidades de escalado tomando como referencia tres resoluciones de renderización: 2560 x 1440 puntos, 2227 x 1253 puntos y 1920 x 1080 puntos. Si observamos con detenimiento las capturas veremos que el nivel de detalle de la imagen sin DLSS y el de la captura con DLSS 2.0 escalada a 2160p desde 1440p es esencialmente idéntico. Esta última no contiene más ruido. Ni menos detalle.

Pero hay algo más. La calidad de imagen que nos entrega esta tecnología en este juego cuando la resolución de renderización es aún más baja (1253p y 1080p) sigue siendo muy alta. Si ampliamos al 300% la captura original utilizando un editor de imágenes y la comparamos con la imagen sin DLSS podemos apreciar una ligerísima pérdida de detalle en algunas zonas, como, por ejemplo, en el texto que observa la protagonista del videojuego. Pero es algo muy difícil de detectar en tiempo real mientras jugamos. El primer punto se lo lleva la tecnología DLSS 2.0.

Controlcalidadimagen

Las capturas que hemos tomado en 'Death Stranding' nos deparan más sorpresas. Este juego no implementa trazado de rayos, pero nos propone tres modalidades diferentes de DLSS. Y, sorprendentemente, el modo que prioriza la calidad es indistinguible de la captura sin DLSS. Tienen el mismo nivel de detalle y el ruido es imperceptible en ambas imágenes. Además, al igual que en 'Control', la pérdida de detalle que se produce si elegimos el modo que prioriza el máximo rendimiento es lo suficientemente baja para pasar inadvertida mientras estamos jugando.

Deathstrandingcalidadimagen

'Battlefield V' nos depara una sorpresa inesperada: algunas zonas de la captura reconstruida a 2160p mediante DLSS 2.0 tienen más detalle que la imagen capturada de forma nativa a esta resolución. Es algo inesperado, pero refleja lo bien que puede funcionar esta tecnología cuando se implementa correctamente. Podemos observar este ligero incremento del nivel de detalle en las juntas de los ladrillos y en el cartel que corona el edificio.

Battlefieldvcalidadimagen

Concluimos el análisis de la calidad de imagen con 'Bright Memory Infinite', y, una vez más, DLSS 2.0 sale airosa. Al igual que en 'Battlefield V', el modo que prioriza la calidad consigue recuperar más detalle en algunas zonas que la captura sin DLSS (podemos observarlo en el tejido del pantalón y en el pavimento en primer plano), y la pérdida de detalle que se produce en los modos Balance y Performance es tan baja que es esencialmente imperceptible mientras estamos jugando.

Brightmemorycalidadimagen

Evaluamos el impacto de DLSS 2.0 en el rendimiento

Para poner a prueba el impacto que tiene esta tecnología en el rendimiento hemos utilizado tres tarjetas gráficas de última generación de NVIDIA: una GeForce RTX 3080, una GeForce RTX 3070 y una GeForce RTX 3060 Ti, todas ellas en versión Founders Edition.

Hemos utilizado la máxima calidad gráfica y el modo DLSS que prioriza el rendimiento

La configuración de nuestra plataforma de test es la siguiente: microprocesador Intel Core i9-10900K con 10 núcleos, 20 hilos de ejecución (threads) y una frecuencia de reloj máxima de 5,30 GHz; dos módulos de memoria Corsair Dominator Platinum DDR4-3600 con una capacidad conjunta de 16 GB y una latencia de 18-19-19-39; una placa base Gigabyte Z490 AORUS Master con chipset Intel Z490; una unidad SSD Samsung 970 EVO Plus con interfaz NVMe M.2 y una capacidad de 500 GB; un sistema de refrigeración por aire para la CPU Corsair A500 con ventilador de rodamientos por levitación magnética y una fuente de alimentación modular Corsair RM 750x.

Por último, el monitor que hemos utilizado en las pruebas es un ROG Strix XG27UQ de ASUS equipado con un panel LCD IPS de 27 pulgadas con resolución 4K UHD y capaz de trabajar a una frecuencia de refresco máxima de 144 Hz. Todas las pruebas las hemos ejecutado con la máxima calidad gráfica implementada en cada juego y habilitando la API DirectX 12 en aquellos títulos en los que está disponible. El modo DLSS que hemos seleccionado es el que prioriza el rendimiento. Y las herramientas que hemos utilizado para recoger los datos son FrameView, de NVIDIA; OCAT, de AMD; y FRAPS. Las tres están disponibles gratuitamente.

Plataformapruebas

En el primer gráfico podemos ver que la tecnología DLSS 2.0 tiene un impacto profundo y positivo en el rendimiento de la tarjeta gráfica. La GeForce RTX 3080 es un auténtico monstruo, pero, aun así, necesita esta innovación para conseguir entregarnos una cadencia de imágenes sostenida superior a los 60 FPS a 2160p cuando habilitamos el trazado de rayos en 'Control' y 'Battlefield V'.


El impacto que tiene la tecnología DLSS 2.0 en el rendimiento de una tarjeta gráfica GeForce RTX 3070 es idéntico al que hemos observado en la GeForce RTX 3080: todos los juegos nos entregan a todas las resoluciones una cadencia de imágenes por segundo sensiblemente más alta al recurrir a esta innovación.

Esta tarjeta gráfica se siente cómoda a 1080p y 1440p con el trazado de rayos activado, pero a 2160p sufre en algunos juegos, por lo que recurrir a DLSS 2.0 marca la diferencia entre coquetear con los 50 a 60 FPS, o bien quedar por debajo de los 30 FPS sostenidos.


El resultado que hemos obtenido con una GeForce RTX 3060 Ti es esencialmente calcado al que ha arrojado la tecnología DLSS 2.0 cuando convive con las otras dos tarjetas gráficas que hemos puesto a prueba. Una vez más todos los juegos rinden mejor al activarla. A todas las resoluciones.

Esta tarjeta gráfica se siente cómoda a 1080p y 1440p, pero cuando pisamos el acelerador a 2160p y activamos el trazado de rayos en algunos juegos, como 'Control', es imprescindible recurrir al DLSS si queremos que sea capaz de entregarnos una cadencia de imágenes sostenida superior a los 30 FPS.


La última gráfica a la que merece la pena que dediquemos un momento refleja el impacto que tienen en el rendimiento los distintos modos DLSS implementados por la mayor parte de los juegos, que suelen priorizar la calidad de imagen, el equilibrio o el rendimiento. Como cabe esperar este último es el que nos entrega las cadencias de imágenes sostenidas más altas, y, como hemos visto, su impacto en la calidad de imagen es muy moderado (a menudo prácticamente imperceptible), por lo que no hay ninguna razón por la que no debamos recurrir a él cuando sea necesario.

No obstante, los otros dos modos, y sobre todo el que prioriza la calidad de imagen, también nos ofrecen un equilibrio entre rendimiento y calidad gráfica sobresaliente. Lo ideal es probarlos todos y elegir aquel que nos ofrece la mejor experiencia posible en cada juego.


NVIDIA DLSS 2.0: la opinión de Xataka

DLSS 2.0 funciona. Y, además, lo hace muy bien. NVIDIA ha conseguido ofrecernos con esta revisión de su tecnología lo que nos había prometido cuando dio a conocer la versión original de DLSS. Y esta es una baza muy contundente a su favor, porque, como acabamos de ver, incluso un monstruo gráfico como es la GeForce RTX 3080 necesita recurrir a esta innovación para poder entregaros una cadencia de imágenes sostenida superior a los 60 FPS a 2160p cuando habilitamos el trazado de rayos en juegos como 'Control' o 'Battlefield V'.

Desde un punto de vista estrictamente técnico es difícil poner pegas a una tecnología que nos ha demostrado rendir tan bien

Además, su impacto en la calidad de imagen es mínimo. De hecho resulta muy sorprendente comprobar que el modo DLSS que prioriza la calidad de imagen consigue en algunos juegos recuperar ligeramente más detalle que el que nos ofrece el motor del juego cuando desactivamos esta tecnología. Todo lo que hemos observado a lo largo de este análisis nos confirma objetivamente que DLSS 2.0 realmente marca la diferencia.

Aun así, NVIDIA todavía tiene trabajo por hacer para reforzar más su propuesta. Desde un punto de vista estrictamente técnico es difícil poner pegas a una tecnología que nos ha demostrado rendir tan bien en todos los juegos que la implementan, pero su punto débil es que aún no son muchos los títulos que la ponen a nuestro alcance, aunque poco a poco van llegando más. Crucemos los dedos para que 2021 nos traiga muchos más videojuegos preparados para sacar el máximo partido a DLSS 2.0.

Dlssopinion

Más información | NVIDIA



via Robótica e IA - Xataka https://ift.tt/2LbwI2Z

La inteligencia artificial de OpenAI ya genera imágenes de la nada a partir de un texto que describa lo que queramos ver

La inteligencia artificial de OpenAI ya genera imágenes de la nada a partir de un texto que describa lo que queramos ver

OpenAI, una de las entidades que más avances está haciendo en el ámbito de la inteligencia artificial ahora mismo, tiene dos nuevas IAs. DALL-E y CLIP son capaces de encontrar asociaciones entre conceptos visuales y textuales a partir de miles de millones de parámetros GPT-3. ¿Resultado? Le pedimos una habitación con una cama blanca y una pecera y nos crea varias imágenes con una habitación con una cama blanca y una pecera, como se puede apreciar en la imagen siguiente.

Screenshot

OpenAI ha anunciado la creación de dos sistemas de inteligencia artificial multimodal. En ambos casos, se busca realizar una mejor asociación entre conceptos visuales y conceptos textuales. Por una parte tenemos a DALL-E, que es capaz de generar imágenes a partir de una descripción en texto. Por otro lado, está CLIP, una inteligencia artificial capaz de reconocer visualmente las imágenes y categorizarlas de forma instantánea.

Ambas inteligencias artificiales aprovechan la potencia de GPT-3, el modelo de lenguaje de OpenAI presentado durante 2020 y que sorprendió a muchos. GPT-3 es capaz de generar diseños, conversar y debatir o programar como pudimos ver en multitud de ejemplos que salieron.

"Crea una imagen de una nuez partida por la mitad"

DALL-E es el primero de estos sistemas de inteligencia artificial multimodal. Su propósito no es otro que generar de la nada imágenes basadas en una descripción dada. Según OpenAI, para ello utiliza una versión de GPT-3 de 12 mil millones de parámetros. Esto le permite crear diferentes versiones de lo que se le pide con una precisión asombrosa en muchas ocasiones.

Screenshot 4

Lo interesante aquí es que es capaz de generar imágenes de conceptos que existen y otros que no existen también. Por ejemplo si se le pide que cree una imagen de una nuez partida por la mitad lo hace porque sabe cómo es una nuez partida por la mitad. Sin embargo también puede crear un reloj verde con forma de pentágono o un caracol que a la vez es un arpa.

Screenshot 5

Las imágenes, evidentemente, no tienen la calidad de una fotografía real. Sin embargo en objetos simples y bien definidos la calidad puede llegar a ser asombrosa y pasar desapercibido el hecho de que realmente no exista. Ejemplo de ello es "una tetera con la misma tetera debajo y el texto GPT":

Screenshot 2

Entendiendo qué hay en una imagen

CLIP por su parte está destinada a realizar un proceso casi contrario. Gracias a que ha sido entrenada con 400 millones de partes de imágenes y texto de Internet, es capaz de reconocer al instante a qué categoría pertenecen las imágenes que se le muestran. El sistema reconoce objetos, caracteres, localizaciones, actividades, sujetos y más.

Screenshot 6

Con esto a CLIP se le puede dar una imagen para que la describa de la mejor forma posible. La IA devuelve una serie de descripciones indicando qué tanto por ciento está segura de ello.

Si bien CLIP puede ser tremendamente competente a la hora de clasificar algunas imágenes, para otras se queda corta. Por ejemplo no tiene problemas para reconocer un avión o un estudio de televisión, pero sí que no entiende muy bien cuando se trata de una imagen satelital o un lince en el campo.

Más información | OpenAI



via Robótica e IA - Xataka https://ift.tt/2XhrlSg