miércoles, 21 de febrero de 2024

Groq (no Grok) es el nuevo fenómeno de la IA, pero no hace LLMs: fabrica chips que los hacen volar

Groq (no Grok) es el nuevo fenómeno de la IA, pero no hace LLMs: fabrica chips que los hacen volar

El pasado 9 de noviembre Jonathon Ross escribió un post en el blog de su empresa. Lo tituló "Bienvenido a la galaxia de Groq, Elon". Musk acababa de presentar su chatbot, Grok.

Resultó que ese nombre ya estaba cogido hacía tiempo —aunque con una "q" al final en lugar de una "k"— por parte de esta desconocida empresa que ahora se ha convertido en el nuevo fenómeno del mundo de la IA.

Groq no hace LLMs. No tiene un modelo que compita con GPT-4, con PaLM 2 o con Llama 2. Tampoco tiene un chatbot propio que compita con ChatGPT, Gemini o Copilot. No. Hace algo muy distinto, pero tan importante como eso... o puede que más.

Groq fabrica chips de inteligencia artificial. Los llaman Language Processing Units (LPUs), y con ellos logra algo espectacular: permite que la generación de texto de estos chatbots sea muchísimo más rápida que la que se obtiene con cualquier otro chip, incluidas las potentes GPUs de VIDIA.

Ross demostró la capacidad de sus chips hace unos días en una entrevista en la CNN. En ella explicó cómo Groq hace que las conversaciones —de texto o habladas— con el chatbot resulten mucho más naturales y mucho más atractivas para quien interactúa con las máquinas. 

Velocidad de vértigo = conversaciones naturales

La clave está en la velocidad. Los humanos somos por lo general poco pacientes, y los chatbots tardan en respondernos porque para hacerlo necesitan tener acceso a una capacidad de cálculo enorme. Hasta ahora las GPUs de NVIDIA eran la mejor opción para obtener conversaciones más o menos fluidas, pero Groq deja a esas GPUs a la altura del betún

Lo hemos comprobado haciendo una pequeña prueba que cualquiera puede replicar: basta con abrir dos ventanas, una con ChatGPT o cualquier otro chatbot en una parte de la pantalla y la demo de Groq en la otra parte. La velocidad de respuesta del chatbot de Mistral (pero se puede aplicar a cualquier otro) gracias a Groq es sencillamente espectacular.

Hay estudios independientes como el de Artificial Analysis que dejan clara la diferencia: no solo la velocidad es superior, sino que además Groq es más económico.

Captura De Pantalla 2024 02 21 A Las 9 13 05 Captura De Pantalla 2024 02 21 A Las 9 13 05 Fuente: Artificial Analysis.

Así, Groq ofrecía una tasa de 246,79 tokens por segundo con el LLM Llama 2 con un coste de 0,72 dólares por cada millón de tokens. Usar ese mismo LLM en la infraestructura Microsoft Azure daba 18 tokens por segundo y un coste de 1,6 dólares.

Otros análisis confirman esas prestaciones. En el ranking de LLMPerf monitorizado por la empresa Anyscale, Groq es 18 veces más rápido en inferencia LLM que los principales proveedores de esta función en la nube. 

Cómo logra Groq ser tan rápido

Estamos pues ante una prometedora revolución no en la precisión o calidad de las respuestas de estos modelos y sus chatbots, sino en la velocidad con la que nos responden. De repente mantener una conversación puede resultar mucho más natural, y esto plantea implicaciones importantes en ese uso práctico de esta tecnología.

Groq 2 Groq 2

¿Cómo logran los chips de Groq algo así? Ross lo explicaba en esa entrevista de la CNN con una analogía sencilla.

"La mayoría de los chips de IA no tienen demasiada memoria disponible. Es como cuando fabricas coches: necesitas grandes fábricas y un millón de pies cuadrados en líneas de ensamblaje. Si no tienes ese tipo de edificio, necesitas dividir las líneas de ensamblaje una y otra vez para que ocupen menos. Eso es lento y lleva mucho tiempo, y eso es lo que pasa con la GPU: tienes que leer de la memoria miles de veces por cada palabra que se genera, como si tuvieras que configurar la línea de ensamblaje una y otra vez [para sacar la pieza necesaria del coche]".

Aunque los responsables de Groq lógicamente no quieren dar muchos detalles sobre cómo funcionan sus chips, sí que explican en el sitio web oficial de la compañía que "la LPU está diseñada para superar los dos cuellos de botella de los LLM: la densidad de cálculo y el ancho de banda de la memoria". La empresa, eso sí, enlaza a estudios premiados de 2020 en los que ya hablaba de procesadores especializados para acelerar tareas de aprendizaje profundo.

Ross explicó que estos chips no están disponibles para usuarios finales, así que no esperéis poder comprar algún tipo de tarjeta PCIe para añadirla a vuestro PC. Al menos, no de momento: la empresa trabaja con compañías que pueden beneficiarse de esta potencia de cálculo en sus centros de datos para luego ofrecer esa velocidad de generación de texto en sus servicios en la nube.

Es de esperar que poco a poco veamos este tipo de solución implantada en chatbots públicamente accesibles —y seguramente, de pago—, pero lo interesante es que esto abre la puerta a que efectivamente este tipo de mejora haga que las GPUs de NVIDIA (o AMD, que avanza en este campo) cuenten con al menos una alternativa totalmente especializada en este ámbito. Y si ha aparecido una, lo lógico es pensar que acabarán apareciendo más y quizás lo hagan con propuestas destinadas a los consumidores.

En Xataka | Señor Musk, no necesitamos un chatbot sarcástico. Necesitamos uno del que podamos fiarnos al 100%



via Robótica e IA - Xataka https://ift.tt/297f5AD

No hay comentarios:

Publicar un comentario