lunes, 16 de septiembre de 2024

Microsoft refuerza su Copilot en las apps Microsoft 365: la IA hace más para que tú puedas hacer menos

Microsoft refuerza su Copilot en las apps Microsoft 365: la IA hace más para que tú puedas hacer menos

Microsoft 365, la evolución de la vieja suite ofimática Office, no para de supervitaminarse. La llegada de ChatGPT permitió integrarlo con esta suite de herramientas y ahora llega la segunda oleada de novedades. Una que permite que sus usuarios reciban mucha ayuda de la IA en todo tipo de tareas, sobre todo las que afectan al ámbito empresarial.

Business Chat. El llamado BizChat se convierte en una especie de punto de encuentro en el que se aglutinan los datos web, de trabajo y de nuestra línea de negocio a nivel interno para que Copilot sirva como una especie de secretario preparado para ayudarnos a encontrar de todo en todo momento.

Copilot Pages. Es parte integral de la esa herramienta anterior, y hace que el acceso a eos datos sea más visual y práctico. Es posible crear páginas en las que podamos ir colaborando con otros compañeros y que cada uno añada contenido aprovechando tanto la IA como sus propias labores de edición de esas páginas informativas.

Excel Excel

Excel potenciado por Python. Lograr extraer conclusiones de documentos Excel se vuelve ahora más sencillo con la nueva versión de Copilot que gana la capacidad de trabajar con Python. El sistema de IA de Microsoft 365 no solo analiza los datos, sino que crea automáticamente scripts en Python con los que obtener conclusiones y datos importantes que antes nos llevaría mucho más tiempo y esfuerzo obtener. Previsiones, análisis de riesgo, visualización de datos y otros elementos son accesibles con lenguaje natural.

La narrativa lo es todo. En PowerPoint la IA generativa de Copilot saca todo su partido a través del llamado Narrative builder, una herramienta que nos asiste y que a partir de un pequeño prompt en modo texto es capaz de desarrollar un guión para la presentación. A partir de ahí podemos editarlo, añadir información y documentos que puede resumir en una o varias diapositivas, y a partir de todo ello es capaz de generar una presentación PPT completa con un diseño y un contenido notables que luego solo tendremos que revisar para ir editando si lo necesitamos.

Ppt Ppt

Mensajes prioritarios primero. Hace mucho que los clientes de correo electrónico tratan de automatizar la gestión y priorizar qué correos deberíamos atender primero. Es lo que ahora potencia Copilot en Outlook gracias a la opión "Prioritize my inbox". que analiza los mensajes y con nuestra ayuda —señalando que cierto remitente es un cliente importante, por ejemplo— es capaz de organizar los mensajes que van llegando e incluso resumir en dos líneas las respuestas que van llegando a nuestros mensajes si éstas son muy largas.

Word, Teams y OneDrive también mejoran. Copilot es ahora capaz de analizar y resumir mejor las reuniones de Teams y nos puede decir si hay por ejemplo preguntas que quedaron sin responder. En Word destaca la nueva opción de integrar contenido de otros documentos y aplicaciones de la suite, mientras que en OneDrive puede por ejemplo comparar hasta cinco ficheros para analizar las diferencias entre todos ellos.

Vienen los agentes Copilot. Los agentes de IA son una de las evoluciones más prometedoras de la IA, y en Copilot ya han comenzado a ofrecer estos componentes. Así, podrán tanto ser pequeños asistentes que responden a ciertas peticiones como agentes que realizan tareas repetitivas e incluso que van más allá. Microsoft ofrece un "constructor de agentes" basado en Copilot Studio y que permite por ejemplo crear agentes de IA en BizChat o SharePoint.

En Xataka | Bill Gates ha contado como convirtió a Microsoft en el gigante que es ahora: “enfoqué mi vida solo en un único trabajo”



via Robótica e IA - Xataka https://ift.tt/VCYbPIo

OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así

OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así

A Sam Altman no le salen las cuentas. No sabemos si está preocupado por ello, pero no lo parece. La empresa de la que es CEO, OpenAI, sigue marcando el paso del segmento de la inteligencia artificial, pero quizás tenga problemas para seguir haciéndolo.

El problema es el dinero. OpenAI gasta el dinero como si no hubiera mañana. La inversión multimillonaria que Microsoft hizo a principios de 2023 le permitió consolidar su dominio del mercado tras el lanzamiento de ChatGPT, pero una cosa es cierta.

Gasta (mucho) más de lo que gana.

Es al menos lo que creen los analistas que está ocurriendo ahora mismo. Según datos recientes de The Information, ChatGPT cuenta con 10 millones de suscriptores de pago, a los que se suma otro millón de planes aun más caros dirigidos a empresas.

Eso hace que los ingresos mensuales de OpenAI ronden ahora mismo los 225 millones de dólares, unos 2.700 millones de dólares anuales, según los datos filtrados a ese medio. Es mucho dinero, sí, pero no lo suficiente.

OpenAI necesita "gasolina". Y mucha

Lo demuestra el hecho de que año y medio después de aquella inversión de unos 10.000 millones de dólares por parte de Microsoft, Altman está haciendo varios movimientos para recaudar nuevos fondos.

Hace semanas que se rumorea que OpenAI planea "levantar" 6.5000 millones de dólares. Eso la convertiría en una startup absolutamente gigantesca. Ya lo es en la actualidad —se estima que su valor ronda los 85.000 millones de dólares— pero con esa ronda la valoración de OpenAI rondaría los 150.000 millones de dólares, en el rango de Disney o Inditex. Se espera que Microsoft, NVIDIA y Apple participen en la ronda de inversión.

Esa valoración, no obstante, está sujeta a condiciones. OpenAI nació como una organización sin ánimo de lucro, pero en 2018 todo empezó a cambiar y la empresa publicó una carta en la que anticipaba su intención de dejar de ser una non-profit.

El motivo: la imposibilidad de seguir afrontando los gastos que se duplicaban cada tres o cuatro meses. Pocos meses después, en marzo de 2019, Microsoft hacía su primera apuesta por OpenAI e invertía 1.000 millones de dólares en ella.Sin embargo, el cambio de estructura imponía un límite artificial: cada socio "solo" podría recuperar su inversión multiplicada por cien.

Pero la empresa quiere ir aún más allá, y como decíamos la ronda de inversión y su valoración dependerán de si el fabricante de ChatGPT puede modificar su estructura corporativa y eliminar ese tope de beneficios para los inversores. No solo eso: según Reuters, hay debate interno sobre cómo pasar a una estructura de empresa convencional "for-profit", que es la misma que tienen rivales como Anthropic o xAI.

Es algo que también indicaban en Fortune recientemente. Portavoces de OpenAI insistían en que "[la parte de negocio] sin ánimo de lucro es clave para nuestra misión y seguirá existiendo". Y sin embargo, las intenciones parecen claras porque a grandes males, grandes remedios.

El nuevo o1 es prometedor, pero no un "hacedor de dinero"

El lanzamiento de su nuevo modelo o1 —cuyo nombre en clave es 'Strawberry'— ha sido especialmente llamativo por ser una aproximación distinta a lo que hasta ahora planteaba OpenAI.

Openai O1 Openai O1

Así, con el modelo o1 la intención es equivocarse menos. En OpenAI afirman que el modelo tiene capacidad de razonamiento, pero en realidad lo que hace es revisar una y otra vez su respuesta y reconstruirla para validarla y finalmente mostrarla al usuario. Eso hace que, insistimos, teóricamente se equivoque menos aunque siga pudiendo cometer errores..

Solo los suscriptores están comenzando a tener acceso a los primeros modelos o1 disponibles (mini y preview), y las opiniones, aunque positivas, no apuntan a una verdadera revolución aquí. 

Habrá sin duda nichos en los que el argumento de "más lento es mejor" será muy apropiado, pero para la mayoría de los usuarios y escenarios —que quieren respuestas rápidas, aun sabiendo que pueden ser incorrectas—, eso de esperar un ratito a la respuesta no parece que vaya a convencer de que se hagan suscriptores de ChatGPT Plus.

Esa es la razón de que o1, que no es ni mucho menos una AGI, pueda no ser suficiente para convencernos de que OpenAI puede seguir liderando este segmento. Empresas como Anthropic y su chatbot Claude 3.5 Sonnet están ganando mucha popularidad entre los usuarios, pero para OpenAI el problema real es que ellos, sin ser pequeños, no son realmente grandes.

Y precisamente ahí es donde Google, Microsoft, Meta, o Apple (veremos qué pasa con Amazon) pueden acabar volviendo a ganar la partida. Tienen muchos más recursos y mucha menos prisa. Hace tiempo que están moviendo fichas a sus propios ritmos, y lo que está claro es que sus plataformas propias de IA no paran de mejorar. Las alianzas que algunas tienen con OpenAI son necesarias, pero probablemente tengan fecha de caducidad.

Es de hecho algo que comentábamos recientemente: la IA requiere inversiones gigantescas, y ahí las Big Tech tienen toda la ventaja. Eso es una mala (malísima) noticia para las startups, que se enfrentan a barreras de entrada prohibitivas.

OpenAI es el perfecto ejemplo de la situación: a pesar de haber contado con apoyos financieros fortísimos y de seguir buscándolos, su futuro en la industria y su actual posición de dominio podrían estar comprometidos. La empresa es un sumidero de dinero —como todas sus competidoras—, y los inversores están comenzando a impacientarse porque la IA no acaba de ser la revolución que muchos esperaban a corto plazo.

Y si no lo es, ¿cuánto tiempo pasará hasta que esos inversores se cansen de darlo todo sin recibir (casi) nada a cambio?

Nadie lo sabe. Pero una cosa es segura: Sam Altman y OpenAI están tratando de que no se cansen todavía.

Imagen | Nibor con Midjourney



via Robótica e IA - Xataka https://ift.tt/fojure8

sábado, 14 de septiembre de 2024

He probado un traductor con inteligencia artificial de 700 euros. La mejor forma de hacerlo era viendo anime

He probado un traductor con inteligencia artificial de 700 euros. La mejor forma de hacerlo era viendo anime

La inteligencia artificial ha puesto el mundo patas arriba y uno de los palos que ha tocado, está tocando y tocará más con el paso del tiempo es el de los idiomas. Son muchos factores los que juegan en ese sentido, pero la IA tiene un potencial enorme para romper la barrera del idioma. Por eso no resulta extraño que ya tengamos en el mercado traductores basados en esta tecnología como el que hoy nos ocupa.

Su nombre es Timekettle X1 AI Interpreter Hub (Timekettle X1 de aquí en adelante por motivos evidentes) y su precio asciende a 699,99 euros. ¿Su propuesta? Ofrecer un hub de traducción e interpretación basado en inteligencia artificial para que el idioma no sea un problema. ¿Qué tal se comporta? ¿Cómo rinde este peculiar dispositivo? Desde Xataka ya hemos tenido ocasión de echarle el guante y esta ha sido nuestra experiencia.

¿Cómo hemos afrontado este análisis? La realidad es que este dispositivo está muy, pero que muy pensado para el entorno empresarial. Está ideado para traducir pequeñas conferencias presenciales, videollamadas y conversaciones cara a cara y, de hecho, varias de sus funciones están orientas hacia eso. Dado que, para mi desgracia, no suelo hacer ventas de SaaS B2B en calls con USA para llegar a los KPIs del budget, hemos usado este dispositivo para traducir cosas más de andar por casa.

En otras palabras, nos hemos puesto un poquito de anime en japonés para ver qué tal lo traduce en tiempo real, alguna que otra charla TED en diferentes idiomas y, por supuesto, una charla en chino. Entre otras cosas, claro está. La idea era simular en casa algunos casos de uso en los que llevar este dispositivo podría tener sentido. Dicho lo cual, comencemos.

Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka

El intérprete por fuera. Es muy bonito, realmente. El dispositivo es la viva imagen de un hub, con un frontal gobernado por una pantalla bastante generosa táctil y a color, así como un botón que sirve para volver atrás. En la parte superior encontramos los botones de volumen y el de inicio, en la parte delantera la conexión NFC para emparejarlo con otros traductores y en la parte inferior el puerto de carga. Si pulsamos en la parte inferior abriremos el cajón donde se encuentran los auriculares.

Es un dispositivo relativamente pesado y bastante grande, por lo que sí, abulta en el bolsillo y, dado su acabado esquinado, puede ser algo incómodo de transportar. Eso si queremos llevarlo en el bolsillo. Si vamos a usar una mochila o un bolso podemos obviar esto por completo.

Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka

¿Has dicho auriculares? Sí, recordemos que esto es un intérprete, así que el flujo de uso suele ser, normalmente, seleccionar el modo y los idiomas de entrada y salida, ponernos los auriculares y dejar que el intérprete haga lo suyo. El hub analiza el audio de entrada, lo traduce y lo reproduce doblado a nuestro idioma directamente en los auriculares. No obstante, dependerá del modo. Por ejemplo:

  • Cara a cara: la persona A habla en inglés y la persona B habla en español. Cada uno lleva un auricular y escucha la traducción en su idioma. Este sería el modo "tengo una reunión con un compañero de Corea y ni él habla español ni yo hablo coreano".
  • Escuchar y reproducir: la persona A lleva los dos auriculares y escucha a la persona B hablar en otro idioma. Si la persona A quiere hablar, lo hace a través de los auriculares. Estos recogen el sonido, lo mandan al hub y este reproduce la traducción a través del altavoz incorporado. Este sería el modo "he ido a una conferencia en francés sin tener ni idea de francés".
  • Preguntar e ir: la persona A habla en español y se acerca a la persona B, que habla en inglés, para preguntarle algo. Ambos hablan a través del hub con los micrófonos y altavoz incorporado. Este sería el modo "estoy de viaje y necesito saber dónde está la parada de metro más cercana, pero no conozco el idioma".
Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka

Luego hay otros modos enfocados al uso puramente empresarial, como la llamada por voz (para llamar a otro Timekettle X1 y obtener una interpretación simultánea) y la conferencia múltiple (que permite unir hasta cinco dispositivos para traducir en hasta cinco idiomas para 20 personas a la vez). A nivel usuario, lo más probable es que el uso quede reducido a los dos últimos. A mí, personalmente, lo de dejarle a otra persona un auricular que luego me voy a poner yo no me parece lo más higiénico.

Y por cierto, cuidad los auriculares incluidos, porque el Timekettle X1 no permite conectar otros auriculares por Bluetooth. Afortunadamente, los incluidos son cómodos y se escuchan bien, pero no habría estado de más ofrecer esta posibilidad. Sobra decir que tampoco podemos conectar los auriculares incluidos a otros dispositivos para hacer cosas como escuchar música o ver películas.

Las capacidades del Timekettle X1. El intérprete admite 40 idiomas y 93 acentos (por ejemplo, inglés de Reino Unido o Estados Unidos, español de España o de México, etc.). Ahora bien, hay un matiz. Para acceder a todos estos idiomas tenemos que tener una conexión a Internet permanente. Es posible descargar combinaciones de idiomas (que no idiomas completos) para usarlos sin conexión, pero las opciones son más limitadas.

Lista de idiomas admitidos (requiere conexión a Internet): árabe, búlgaro, cantonés, catalán, chino, croata, checo, danés, holandés, inglés, finlandés, filipino, francés, alemán, griego, hebreo, hindi, húngaro, islandés, indonesio, italiano, japonés, coreano, malayo, Noruego, polaco, portugués, rumano, ruso, eslovaco, esloveno, español, sueco, tamil, telugu, tailandés, turco, ucraniano, urdu, árabe vietnamita.
Paquetes offline: inglés-chino, inglés-japonés, inglés-coreano, inglés-francés, inglés-español, inglés-ruso, inglés-alemán, chino-inglés, chino-japonés, chino-coreano, chino-francés, chino-español, chino-ruso y chino-alemán.

¿Y cómo se comporta? Ahora que ya conocemos mejor el dispositivo, vamos a hablar de su rendimiento. Como decíamos anteriormente, hemos hecho varias pruebas para ver qué tal se comporta. Las pruebas las hemos hecho con conexión a Internet, pero luego hablaremos también del rendimiento sin conexión.

Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka

Primera prueba: charla TED. Para esta prueba hemos visto esta charla TED en inglés, este podcast en noruego y este otro en polaco. También hemos visto esta charla en chino. Hemos usado el modo "Escuchar y reproducir", de forma que el sonido original ha salido por la barra de sonido de mi ordenador, ha sido recogido por el micrófono del hub y reproducido por los dos auriculares en mis orejas.

Tanto en noruego como en polaco, la traducción es buena y suficiente para entender el contexto general de la conversación, pero algunas veces tiende a ser algo tosca o demasiado literal. Pasa mucho con algunas frases hechas. En chino, sin embargo, es espectacular. No es perfecta, pero hemos podido ver varios vídeos en chino y entender de qué iba todo sin problema.

Por ponerle una pega, el tiempo que pasa entre que traduce y dobla suele ser algo alto, de manera que tienes la sensación de que te estás quedando atrás en la conversación. Además, cabe destacar que no hemos tenido ocasión de probarlo en un auditorio con sonido más pobre.

Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka

Segunda prueba: anime en japo. Para este segunda prueba nos hemos puesto cómodos y hemos dedicado un ratito a vernos un par de capitulitos de anime en japonés. ¿Para qué queremos hacer esto? Porque aunque lo más fácil sería poner los subtítulos directamente, esta prueba nos sirve para ver cómo se comporta el dispositivo con diferentes voces y acentos. Y bueno, el japonés es un idioma complicado, así que por qué no.

Esta experiencia ha sido peor. La música de fondo hace que el intérprete no detecte bien la voz y eso provoca que, en ciertos momentos, nos quedemos sin traducción. Sin embargo, cuando la escena es más tranquila, la detección es mucho mejor y tanto la traducción como el doblaje es correcto. No obstante, la lentitud y el retraso en el doblaje hace que sea imposible usar el traductor para este fin que, en su defensa, hay que decir que no es para lo que está pensado.

Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka

Tercera prueba: conversación en tiempo real. Lamentablemente, no tengo cerca a ningún conocido de origen extranjero, pero mi pareja estudió Traducción e Interpretación, tiene un nivel C1 de inglés certificado, trabaja en una empresa estadounidense relacionada con la traducción y pasa todo el día hablando, escribiendo y leyendo en inglés. Así que, dado que no es viable irme a Estados Unidos a charlar con los amigos que hice cuando estuve allí de Erasmus, le he pedido que me eche una mano. Hemos usado el modo cara a cara. Ella ha hablado en inglés y yo en español.

El rendimiento del dispositivo ha sido bueno, muy bueno. Tiene ciertos problemas con algunas palabras debido a mi muy marcado acento andaluz, pero los auriculares recogen perfectamente nuestra voz, traducen bien y doblar a un ritmo y velocidad suficientes para que la conversación pueda ser fluida. Hemos hablado de comida y cine y la charla se ha podido mantener sin problema. Ha sido, sin lugar a dudas, el uso más interesante, aunque me habría encantado poder probarlo con idiomas más complejos, como el chino o el japonés.

Realmente, este dispositivo se pondría a prueba en combinaciones de idiomas más complejas, como árabe-alemán, japonés-noruego, etc., pero desgraciadamente no tenemos la capacidad operativa para llevar a cabo esas pruebas en este momento.

Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka

Cuarta prueba: Internet fuera. Para esta prueba, nos hemos puesto en la situación de alguien que atiende a una charla en inglés sin tener ni idea de inglés y sin acceso a datos móviles o WiFi. Así pues, hemos descargado el paquete de idiomas correspondiente (inglés-español) y activado la conexión fuera de línea. Acto seguido, hemos reproducido esta charla de Bill Gates.

La experiencia es muchísimo peor, por no decir imposible. El dispositivo no entiende bien el texto y, cuando lo hace, lo hace a trompicones, lo que provoca que la traducción también sea mala. Y lo es en ambos sentidos: inglés-español y español-inglés. No te puedes fiar de la traducción sin conexión y eso es un problema bastante importante.

Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka Timekettle X1 AI Interpreter Hub | Imagen: Xataka

En resumen. El Timekettle X1 está muy bien y, cuando tiene conexión a Internet, su rendimiento es bueno, pero es demasiado caro para lo que ofrece. No me cabe duda de que en un entorno corporativo e internacional podría tener muchísimo sentido, pero para un usuario que busca traducción durante un viaje, el traductor de Google o DeepL es más que suficiente y, sobre todo, gratis. Además, no poder fiarse de la traducción offline es un handicap.

El concepto es interesante y la propuesta está bien ejecutada, al menos en términos de hardware. El dispositivo se nota bien construido, los auriculares se escuchan genial y son cómodos (y menos mal, porque no se pueden usar otros), pero 700 euros... es una cifra bastante alta para las funciones que ofrece.

Imágenes | Xataka

En Xataka | Mejor traductor: 22 herramientas para traducir textos, webs, PDFs, conversaciones o fotografías

Este dispositivo ha sido cedido para pruebas por parte de Timekettle. Puedes consultar cómo hacemos las reviews en Xataka y nuestra política de relaciones con empresas



via Robótica e IA - Xataka https://ift.tt/rAjSsbz

viernes, 13 de septiembre de 2024

La IA ya era capaz de clonar voces y caras. Ahora también clona nuestra forma de escribir

La IA ya era capaz de clonar voces  y caras. Ahora también clona nuestra forma de escribir

Benj Edwards perdió a su padre en 2013, y entre las muchas cosas que echaba de menos de él, estaba su caligrafía. Su forma de escribir era especial para él, y guardaba unos diarios en los que podía seguir recordando a su padre de esa manera.

Ahora puede hacer algo más que eso. Este editor de Ars Technica contaba en un largo artículo allí cómo lleva tiempo siguiendo los avances en el ámbito de la IA generativa, y se encontró con algo que llamó especialmente su atención: una forma de clonar la caligrafía de cualquier persona.

Edwards descubrió aquello en Reddit, donde un usuario con el alias 'fofr' replicó la caligrafía de J.R.R. Tolkien. Aquello causó sensación y pronto hubo usuarios que aprovecharon para generar imágenes de todo tipo. En la de nuestra portada, por ejemplo, un hipotético Tolkien sostenía un mensaje crítico hacia la serie de Amazon Prime Video sobre tu obra de 'El Señor de los Anillos'.

Aquello, no obstante, le dio la idea a Edwards, que aprovechó la técnica utilizada por fofr para su propio propósito: clonar la caligrafía de su difunto padre. El sistema se basa en un proceso de refinado llamado LoRA (Low-Rank Adaptation) para modelos de IA genarativa.

Benji 1 Benji 1 Imagen de Benji Edwards generada con Flux. Fuente: Ars Technica.

Consiste en, a partir de un modelo cualquiera, entrenarlo con cierto tipo de material para luego poder crear contenido a partir de esos contenidos específicos. Si entrenamos un modelo de IA generativa como Stable Diffusion con un montón de fotos nuestras, podremos luego pedirle a ese modelo pulido que nos genere en cualquier situación y escenario, y es entonces cuando el realismo de las imágenes resultantes será notable.

En el caso de Edwards, la técnica se aplicó sobre Flux.1, uno de los modelos más populares en los últimos tiempos a la hora de generar imágenes. Al tener esos diarios de su padre con notas de todo tipo, pudo introducirlas como material de entrenamiento específico en Flux a través de una herramienta específica para ello.

Él utilizó cerca de 30 muestras de esas notas que escaneó. Para cada una escribió 30 descripciones indicando exactamente lo que ponía en cada nota, y además eliminó pequeños errores caligráficos de la imagen usando Photoshop para vque luego no aparecieran en la caligrafía clonada.

Replicate Replicate Una de las primeras pruebas de Edwards clonando la caligrafía de su padre. Fuente: Ars Technica.

30 minutos más tarde de introducir esas imágenes, tenía su modelo LoRA preparado para descargar y utilizar localmente, o para usarlo en la nube usando servidores como los de Replicate, que imponen un coste de entre 2 y 3 centavos por imagen.

El primer resultado ya fue perfecto, así que a partir de ahí se dedicó a generar imágenes con Flux en las que la caligrafía de su padre se usaba en los textos incrustados en las mismas. Es cierto que algunas veces esa caligrafía y esos mensajes no se generaban correctamente, pero en general el resultado fue, al menos para este usuario, especial.

Como indica en ese texto, "sentí alegría al ver nuevas muestras sintetizadas de la caligrafía de mi padre. Las leía como si fueran su voz escrita, y puedo sentir la calidez con tan solo ver las letras. Sé que no son reales y que no las escribió él, así que personalmente lo encuentro divertido".

Estamos desde luego ante otro escenario más en el que los modelos de IA generativa plantean usos muy especiales pero también potencialmente preocupantes. Por un lado se reactiva el debate sobre esa forma de poder sentir algo especial de las personas que nos dejaron, por ejemplo, pero por otro este tipo de opción también podría dar lugar a estafas y fraudes.

Imagen | Fofr (Reddit) expandida con Freepik Pikaso

En Xataka |



via Robótica e IA - Xataka https://ift.tt/LywGBtg

Arabia Saudí está en la lista negra de EEUU junto a China. Tiene un plan para salir de ella y comprar GPU de NVIDIA

Arabia Saudí está en la lista negra de EEUU junto a China. Tiene un plan para salir de ella y comprar GPU de NVIDIA

Arabia Saudí es el mayor exportador de petróleo del planeta. Tiene la segunda mayor reserva conocida de crudo y la quinta mayor reserva de gas natural, lo que lo ha consolidado como una de las mayores potencias económicas. Actualmente su economía depende profundamente del petróleo. Esta industria sostiene el 40% de su producto interior bruto y el 90% de los ingresos obtenidos por las exportaciones, por lo que es evidente que necesita diversificar su economía en previsión de la muy probable pérdida de relevancia a medio plazo del petróleo.

En 2016 el Gobierno saudí puso en marcha un plan conocido como "Saudi Vision 2030" que perseguía diversificar su economía con el propósito de reducir su profunda dependencia del petróleo, y, en menor medida, del gas natural. Su finalidad era lograr su objetivo desarrollando otros sectores que a priori tenían un gran potencial, como el turismo, el entretenimiento, la educación o la salud. Sin embargo, desde entonces la dependencia de su economía del petróleo apenas se ha visto alterada, por lo que este plan está aún lejos de alcanzar su propósito.

Esta es la razón por la que probablemente el Gobierno saudí dio un giro de timón a principios de 2024. Y es que el príncipe Mohamed bin Salmán, que ejerce como Primer Ministro del país y también como presidente del Consejo de Asuntos Económicos y de Desarrollo, anunció la creación de una compañía pública conocida como Alat. Su propósito es conseguir que esta empresa se consolide como un centro de producción global especializado en tecnología avanzada y electrónica, y para lograrlo el Gobierno planea dar empleo en 2030 a 39.000 personas.

Conseguir la luz verde de EEUU tiene la máxima prioridad

Arabia Saudí ha mantenido una relación comercial estrecha con China durante varias décadas. Esta complicidad ha colocado a este país en una posición nada ventajosa ante EEUU en una coyuntura en la que el Gobierno liderado por Joe Biden está haciendo todo lo que está en su mano para impedir que los semiconductores avanzados que producen NVIDIA, AMD o Intel, entre otras empresas, lleguen a China.

La sospecha de EEUU es un grave obstáculo en el camino de Arabia Saudí hacia la diversificación de su economía

El paquete de sanciones de EEUU que entró en vigor el 16 de noviembre de 2023 colocó a Arabia Saudí en la misma lista negra en la que reside China. La Administración estadounidense conoce las estrechas relaciones comerciales que mantienen estos dos países, de modo que el Departamento de Comercio temía que si NVIDIA y otras empresas estadounidenses vendían sus chips de vanguardia a Arabia Saudí finalmente acabasen llegando a China. Esta sospecha es un grave obstáculo para este país árabe en la medida en que dificulta su plan para reducir su dependencia del petróleo y afianzarse como un centro de producción global especializado en alta tecnología e inteligencia artificial (IA).

Arabia Saudí necesita las GPU H100 y H200 para IA, y EEUU se está planteando dar luz verde a NVIDIA para que se las venda. Eso sí, para salir de la lista negra Arabia Saudí tiene que romper sus lazos comerciales con China y garantizar a EEUU que las empresas del país de Xi Jinping no tendrán acceso a los servicios de IA en la nube que en el futuro ofrecerán las compañías de Arabia Saudí. Actualmente este país está introduciendo las medidas necesarias para cumplir los requisitos de seguridad de EEUU y obtener acceso a las GPU H200 de NVIDIA. Ya veremos si la complicidad que han mantenido Huawei y Arabia Saudí durante los últimos años resiste las exigencias de EEUU.

Imagen | Hatice

Más información | Semafor

En Xataka | China se rebela frente a las sanciones que prepara Países Bajos. Acusa a EEUU de estar detrás de todo



via Robótica e IA - Xataka https://ift.tt/E4W9TYx

O1 no "razona" ni es una AGI, pero sí permite mitigar el gran problema de los chatbots: que dejen de alucinar tanto

O1 no "razona" ni es una AGI,  pero sí permite mitigar el gran problema de los chatbots: que dejen de alucinar tanto

Contemos erres.

Si le dices a GPT-4o que te diga cuántas erres hay en la palabra "Strawberry", se equivocará y te dirá que hay dos. ¿Cómo puede cometer un fallo tan grande en una pregunta así? La razón es sencilla: este modelo no procesa el texto como nosotros, sino que lo divide en tokens, lo que provoca ese fallo.

Es un error sorprendente en el que también caen otros modelos. Lo hace Claude, de Anthropic, considerado uno de los más potentes de la actualidad. Podríamos burlarnos de estos modelos, que teóricamente son espectaculares en otras áreas, pero que no son capaces de resolver este simple problema, pero no deberíamos. Y la razón es que no están pensados para solucionar ese tipo de problemas.

Stra Stra
Captura De Pantalla 2024 09 13 A Las 9 22 59 Captura De Pantalla 2024 09 13 A Las 9 22 59 Claude se equivoca.

De hecho, al probar con la versión básica y gratuita de ChatGPT, la respuesta es correcta, pero lo es porque el chatbot hace trampa: en lugar de contarlas tal y como ha sido diseñado, crea un pequeño programa que cuenta las erres y lo aplica a la palabra que hemos pedido. Eso no lo hacía originalmente, creedme: es probable que el comportamiento haya cambiado tras la acción de varios usuarios de votar negativa la solución errónea.

Y ahí es donde entra la "magia" del nuevo modelo de OpenAI, bautizado como o1. Por el momento solo se ofrecen versiones preliminares del modelo, pero incluso estas versiones son un avance importante respecto a otros chatbots y modelos como GPT-4o porque, sencillamente, se equivocan menos.

En uno de los vídeos de demostración de o1, uno de los responsables de su desarrollo precisamente ponía el ejemplo de las erres en la palabra 'Strawberry'. El modelo o1 era capaz de dar la respuesta correcta rápidamente, y según dicho responsable,

"Tener [la capacidad] de razonamiento integrada puede ayudar a evitar los errores porque puede observar su propia salida y revisarla y ser más cuidadoso".

Esa declaración es importante, pero engañosa. El modelo o1 "no razona", al menos en el sentido "humano" de la palabra, porque el modelo sigue sin saber lo que está diciendo. Lo que hace, como bien apunta al final este ingeniero, es algo importante.

Revisar.

Esa es la verdadera clave de o1, un modelo que tarda más en responder porque probablemente funciona tan rápido como GPT-4o (o quizás más) a la hora de dar una solución, pero no la ofrece al usuario directamente. En lugar de eso, la revisa, y si encuentra algún fallo, vuelve a iterar sobre sí mismo, corrigiendo el error y volviendo a plantear una solución y a revisarla. Y así hasta que detecta que no hay fallo (o que cree que no lo hay).

Ese proceso iterativo de prueba y error parece ser la base de o1, como puede verse en ese segundo vídeo de demostración. El problema-puzzle planteado con la edad de la princesa y el príncipe muestra cómo primero o1 va mostrando mensajes en los que informa de que está detectando las variables y las ecuaciones para luego revisarlas, resolver el problema y validar la solución.

La respuesta final precisamente demuestra esa forma de procesar la información e ir resolviendo el problema, pero solo la da después de comprobar que todo ha ido bien. No responde a la primera y "a lo loco" como podían hacer sus antecesores.

Todos ellos pecan de exceso de confianza, y su tono claro y contundente nos hace ver que lo que nos dicen siempre va a ser la respuesta correcta, cuando no es así. Con o1 el tono claro y contundente sigue siendo similar, pero aquí al menos tenemos la garantía de que el modelo ha revisado lo que dice antes de mostrárnoslo.

¿Es esto una revolución? No diría yo tanto, y como el experto Gary Marcus explicaba con igual claridad y contundencia, "esto no es AGI, ni se acerca". Es un salto interesante a la hora de mitigar los errores y las alucinaciones, sin duda, y es posible que sea especialmente útil en escenarios en los que no importe esperar un poco más para evitar errores y mecanismos para solucionarlos.

Tenemos un buen ejemplo en el mundo de la programación, donde la IA generativa ha arrasado y es usada por la amplia mayoría de los desarrolladores. El problema es que por ejemplo ChatGPT falla mucho más de lo que debería en ese ámbito, y precisamente hacerlo menos simplificará aún más la vida de los programadores.

O1 O1

Lo comentaban tanto los responsables de GitHub como los de Devin, que en un interesante post explicaban que o1 sí representa un salto cualitativo importante. Ponían de ejemplo una tarea en la que pidieron a Devin analizar publicaciones de X usando las librerías de aprendizaje automático textblob y text2emotion.

Al intentar resolver el problema, Devin lanzó el siguiente mensaje: "AttributeError: module 'emoji' has no attribute 'UNICODE_EMOJI'". Mientras que GPT-4o intentó resolver esa excepción, pero se metió en un lío porque el problema no estaba ahí, sino en la versión de la librería emoji. El modelo o1-preview que usaron "llegó a la conclusión correcta investigando online como lo hubiera hecho un ingeniero humano", destacaban.

¿Significa eso que o1 no se equivocará? En absoluto. El modelo sigue equivocándose —aquí un usuario de X mostraba un ejemplo con el juego de las tres en raya—, pero aún así lo hará probablemente mucho menos. El propio Sam Altman lo advertía al anunciarlo en Twitter: "o1 sigue siendo defectuoso, sigue siendo limitado, y sigue pareciendo más impresionante en el primer uso que después de pasar más tiempo con él".

Y aun así, es un avance singular en los escenarios en los que importa mucho más que la respuesta sea correcta (con bastante probabilidad) que sea rápida. Es probable que en el futuro ambas cosas converjan y tengamos modelos que sean capaces de revisar ("razonar") y contestar casi instantáneamente, y será entonces cuando por ejemplo la capacidad de hablar de GPT-4o sea aún más llamativa.

Por cierto: las nuevas opciones de síntesis de voz siguen sin estar disponibles ni siquiera para los usuarios de pago, y al ser preguntado por ello Altman contestó con cierta soberbia con ese "¿qué tal si dais las gracias durante un par de semanas por esa inteligencia mágica caída del cielo, y luego ya llegarán más juguetes?".

En Xataka | Copilot, ChatGPT y GPT-4 han cambiado el mundo de la programación para siempre. Esto opinan los programadores



via Robótica e IA - Xataka https://ift.tt/PqbAWmj

jueves, 12 de septiembre de 2024

OpenAI lanza por sorpresa o1, su primer modelo con capacidades de “razonamiento” para resolver problemas difíciles

OpenAI lanza por sorpresa o1, su primer modelo con capacidades de “razonamiento” para resolver problemas difíciles

Los rumores eran ciertos. OpenAI estaba trabajando en un modelo de inteligencia artificial (IA) con capacidades avanzadas. El misterio ha llegado a su fin este miércoles cuando la compañía liderada por Sam Altman ha anunciado el lanzamiento de o1-preview, un desarrollo que internamente era conocido como “Strawberry”.

Estamos ante una primera versión preliminar de una serie de modelos de IA cuyo funcionamiento es bastante diferente a todo lo que hemos visto hasta ahora. Cuando interactuamos con modelos como GPT-3,5 o GPT-4, estos intentan respondernos lo antes posible. o1, en cambio, se tomará cierto tiempo antes de ofrecer una respuesta.

Un modelo de IA pensado para resolver problemas difíciles

Resulta curioso ver las palabras que OpenAI ha seleccionado para describir las capacidades de su nuevo modelo. Según la compañía, o1 “pensará” antes de ofrecer una respuesta, “al igual que lo haría una persona”. Incluso van más allá, dicen que con el paso del tiempo refinará su pensamiento y también reconocerá sus errores.

Como sugerían los rumores, este modelo no será útil para todo tipo de usuarios, pero se trata de un salto bastante importante en las ambiciones de la compañía estadounidense de alanzar una inteligencia similar a la que tenemos los humanos. o1 promete desempeñarse mejor que modelos anteriores en el campo de la ciencia. 

Por ejemplo, los usuarios de o1 pueden esperar mejores respuestas en tareas de programación, matemáticas, física, química y biología. ¿El precio a pagar? Pues bien, no será tan rápido como sus antecesores. Esto se debe a que, como decíamos, necesitará cierta cantidad de tiempo para “pensar” sus respuestas. 

En desarrollo.

Imágenes | OpenAI

En Xataka | La nueva herramienta de IA de Google es alucinante: genera podcasts "casi humanos" a partir de los textos que añades



via Robótica e IA - Xataka https://ift.tt/otUra9D

La nueva herramienta de IA de Google es alucinante: genera podcasts "casi humanos" a partir de los textos que añades

La nueva herramienta de IA de Google es alucinante: genera podcasts "casi humanos" a partir de los textos que añades

En verano de 2023, Google anunció la llegada de NotebookLM, una evolución del bloc de notas tradicional en el que la IA cobraba especial protagonismo. Hace poco que está disponible en español —nuestros compañeros de Xataka Android lo probaron—, pero es que ahora llega una novedad llamativa. Una que hace que este bloc de notas nos hable en formato podcast.

Llega la "Audio Overview". En Google anunciaron ayer la llegada de una nueva característica llamada "Audio Overview" (algo así como "Resumen de Audio"). Según los responsables de este desarrollo, con ella es posible convertir documentos, presentaciones o diagramas en singulares podcasts  de audio con un solo click. Es una forma singular de revisar y entender documentos que hemos subido a la app, y que nos ofrece sus resúmenes no en forma de texto, sino en una converesación en formato podcast con voces sintetizadas por AI.

Captura De Pantalla 2024 09 12 A Las 11 17 53 Captura De Pantalla 2024 09 12 A Las 11 17 53 Os animo a probar NotebookLM con este tipo de resúmenes de voz. El resultado es alucinante.

Un podcast sintético. Cuando añades documentos a un nuevo bloc de notas, el sistema da la opción de convertirlas en una especie de podcast. En el audio resultante intervienen dos voces sintetizadas —una masculina, otra femenina— que van dialogando y que precisamente se encargan de resumir los documentos para que su comprensión sea más sencilla y entrenida.

Lo he probado y es alucinante. Precisamente utilicé NotebookLM y su nueva Audio Overview para obtener un podcast que me explicara de qué va Audio Overview. Lo alimenté con ficheros txt en los que copié el anuncio oficial de Google y tres noticias de diversas fuentes (The Verge, PCMag y TechCrunch) al respecto. Tras añadir los textos, pinché en "Notebook guide" (parte inferior derecha de la interfaz) y en unos 3 o 4 minutos se generó el resumen de audio, que dura 9:23. El resumen en formato podcast es fantástico, entretenido e instructivo, y además no inventa cosas ni comete errores porque la información utilizada es la que hemos seleccionado nosotros. Solo si esa información inventa o tiene errores, estos pueden acabar en ese podcast final, claro.

¿Voces demasiado humanas? Al oir alguno de los podcasts generados como resultado —tenéis un ejemplo en el anuncio oficial— se puede comprobar cómo las voces sintetizadas que intervienen hablan de forma muy humana. Se interrumpen, usan metáforas, van contestando a lo que dice el otro con cosas como "Right" ("Exacto") o "Yes" ("Sí") y adoptan tonos de voz que son de todo menos monótonos, precisamente para hacer más interesante el resultado. La característica, eso sí, es experimental y está disponible solo generando audios en idioma inglés, pero aun así su ejecución es alucinante, aunque obviamente puede estar expuesta a errores si no entiende términos o acrónimos usados en los documentos, por ejemplo.

Un futuro probable para los podcasts. Esta herramienta apunta a una posible evolución de los podcasts en los que ya ni siquiera tengamos que grabarlos. Teniendo en cuenta que ya hay herramientas capaces de sintetizar nuestra voz, podríamos usar NotebookLM y su Audio Overview con esa voz clonada precisamente para no tener que locutar el podcast directamente. Es algo que de hecho se puede hacer hoy mismo: podemos transcribir el podcast resultante y luego sintentizarlo de nuevo con la voz clonada con alguno de los servicios que lo logran. Parece razonable pensar que no tardarán en existir herramientas que permitan algo así, lo que insistimos, ofrece una alternativa llamativa —e inquietante— en el mundo de los podcasts generados por IA.

En Xataka | Hasta ahora la estafa más común por IA consistía en "clonar" voces. Ahora llega el turno de las videollamadas



via Robótica e IA - Xataka https://ift.tt/kQn6Dse

OpenAI planea “levantar” 6.500 millones de dólares. Eso la convertiría en una empresa tan grande como Disney o Inditex

OpenAI planea “levantar” 6.500 millones de dólares. Eso la convertiría en una empresa tan grande como Disney o Inditex

Mucho se está hablando en los últimos días de la ronda de financiación que está organizando OpenAI. La empresa se ha convertido en la gran referencia en el mundo de la inteligencia artificial, pero quiere ser aún más grande. De hecho, quiere ser gigantesca.

Una ronda de inversión colosal. Según revelan en Bloomberg, OpenAI planea levantar 6.500 millones de dólares a través de distintos inversores. Es una cantidad absolutamente extraordinaria para una operación de este tipo, pero es que si consiguen esa cantidad, se convertirán en una empresa con una valoración asombrosa.

150.000 millones de dólares. Se estima que de conseguir levantar esa cantidad en la ronda de inversión, la valoración estimada de OpenAI será de 150.000 millones de dólares. Es casi el doble de los 85.000 millones de dólares en los que está valorada ahora mismo, y la convertiría en una de las mayores empresas del mundo.

Tan grande como Disney o Uber. Si comparamos esa valoración con la capitalización bursátil de empresas que cotizan en bolsa, OpenAI estaría al nivel de The Walt Disney Company, Uber, Comcast  o Goldman Sachs. La española Inditex, por ejemplo, no estaría muy lejos: en la actualidad su valoración bursátil ronda los 168.000 millones de dólares.

Pero buscan aún más fondos. Como parte de la operación, OpenAI también está negociando para recaudar 5.000 millones de dólares adicionales. Lo haría en forma de deuda de los bancos mediante una línea de crédito renovable, indicó una fuente anónima cercana al proceso. Los costes operativos de OpenAI son gigantescos, y todo ese dinero permitiría tener "gasolina" para seguir ofreciendo sus servicios y mejorándolos durante bastante tiempo.

Un recurso ya popular. Esa línea de crétido es un tipo de operación a la que han acudido otras grandes tecnológicas en el pasado. Lo hicieron Facebook, Alibaba o Uber. Históricamente las empresas tienden a recompensar a los bancos que firman esos compromisos dándoles ventajas importantes en sus posteriores ofertas públicas de acciones. Para los bancos por tanto esto es una forma de lograr acciones a precios muy atractivos en el caso (probable) de que OpenAI acabe saliendo a bolsa.

Las Big Tech, metidas en el ajo. Los datos apuntan a que la ronda estará liderada por la firma de capital riesgo Thrive Capital, pero además es probable que tres de las grandes de la tecnología también participen. Microsoft —que ya realizó una inversión multimillonaria en 2023— estaría acompañada de Apple y NVIDIA, que se unirían a la ronda.

Strawberry a la vista. Las noticias sobre la ronda coinciden con la inminente llegada de Strawberry, el nuevo modelo de OpenAI capaz de razonar con el objetivo de cometer menos errores. Si la empresa logra aquí aventajar a sus rivales, tendrá un nuevo e importante elemento para mantener su papel protagonista en este segmento. No es el único: los avances en GPT-4o y las demos que vimos en los iPhone y iPad hace unos meses siguen sin llegar a los usuarios, pero prometen ser especialmente llamativas y útiles.

Imagen | Alexander Grey | Village Global

En Xataka | Cuidado con enamorarte de tu chatbot: en OpenAI alertan de que GPT-4o puede reducir la necesidad de socializar con seres humanos



via Robótica e IA - Xataka https://ift.tt/Z6c4A1h