viernes, 9 de junio de 2023

Bard no era muy bueno en matemáticas y programación. Hasta que Google hizo caso a un premio Nobel

Bard no era muy bueno en matemáticas y programación. Hasta que Google hizo caso a un premio Nobel

Una de las críticas que se le hacen a ChatGPT y a Google Bard es lo mucho que se equivocan y lo mucho que se inventan o alucinan. Ocurre cuando preguntamos por datos que podemos corroborar —por ejemplo, históricos—, pero también cuando pedimos que programen algo o que den respuesta a un problema matemático. El chatbot de Google, Bard, acaba de dar un paso interesante para tratar de mejorar en este tipo de tareas.

No calculan, predicen. Como explican en ese anuncio de Google, los Grandes Modelos de Lenguaje (LLMs, por su acrónimo en inglés) son en esencia motores predictivos. Cuando uno les da una entrada, generan una salida que trata de predecir qué palabras deben ir a continuación. Eso es bueno en el ámbito creativo y en la generación de textos, pero las cosas cambian cuando queremos respuestas precisas en ámbitos como el matemático o el de la programación.

Google Bard no era muy bueno... Eso provocaba que al preguntarle a Bard por cuestiones matemáticas o de programación, este chatbot pudiese con frecuencia o bien dar una respuesta errónea o incluso indicar inmediatamente que no estaba preparado para responder ese tipo de cuestiones.

... pero eso cambia ahora. En Google han realizado una serie de cambios que permiten que ahora Bard se comporte mejor en estos ámbitos. Como los responsables del desarrollo explican, "basarse solo en LLMs no era suficiente".

Pensar rápido, pensar despacio. El método se inspira "en una dicotomía bien estudiada en ingeligencia humana, notablemente cubierta en el libro de Daniel Kanheman —premio Nobel de economía— 'Pensar rápido, pensar despacio' y habla sobre el "Sistema 1" y el "Sistema 2" de pensamiento. El primero es más intuitivo y da respuestas rápidas, el segundo es más lento, deliberado y con esfuerzo.

Bard quiere ser un poco más del "Sistema 2". En esa analogía los LLM podrían por tanto englobarse dentro del sistema 1, produciendo texto rápido pero sin pensar demasiado. Sin embargo la computación tradicional se alinea con el sistema 2: "es formulista e inflexible, pero la secuencia correcta de pasos puede reducir resultados fantásticos, como soluciones a operaciones de divisiones largas", indican en Google.

Si puedes resolverlo con un programa, hazlo. El método utilizado en Bard para lograr que "piense despacio" está en la ejecución de código explícito: cuando identifica entradas (prompts) que se pueden beneficiar de un código lógico, lo utiliza de fondo.y utiliza ese código para generar resultados más precisos.

Captura De Pantalla 2023 06 08 A Las 12 34 45

Di esto al revés. Un ejemplo típico sería el de invertir las letras de una palabra: Bard no lo hacía bien en muchos casos, pero ahora es capaz de identificar que por ejemplo hay una función en Python que lo hace, la utiliza, aplica esa función a la palabra y eso permite obtener el resultado correcto.

Captura De Pantalla 2023 06 08 A Las 12 56 46
Este problema de razonamiento lógico es bastante sencillo, pero ningún motor lo resolvió bien. Google Bard mostró tan solo 4 posibilidades, ChatGPT (GPT-3.5) mostró 6 posibilidades, y ChatGPT Plus (GPT-4) mostró 8 posibilidades. A este último le faltaba la restante: un resultado de 3-2 (que sí consideraba GPT-3.5).

Un 30% mejor, pero no perfecto. Según las pruebas de Google, este método permite que en un conjunto de problemas que utilizan a nivel interno las respuestas mejoren aproximadamente en un 30%. Los responsables de Bard avisan: sigue sin ser preciso del todo, y de hecho en problemas mátemáticos que hemos probado aparte —aquí hay unos cuantos ejemplos— las respuestas no siempre eran las adecuadas. Bard, eso sí, avanza, y eso son buenas noticias.

Imagen | Xataka con Midjourney

En Xataka: Soy informático y trabajo reportando fallos de software a las grandes empresas tecnológicas



via Robótica e IA - Xataka https://ift.tt/rjl7woA

No hay comentarios:

Publicar un comentario