miércoles, 16 de octubre de 2024

Jensen Huang, sorprendido, dice que Elon Musk instaló 100.000 GPU de NVIDIA en solo 19 días. Un despliegue así llevaría años

Jensen Huang, sorprendido, dice que Elon Musk instaló 100.000 GPU de NVIDIA en solo 19 días. Un despliegue así llevaría años

A principios del año pasado, Elon Musk se lanzó a la carrera de la inteligencia artificial (IA) con su propia empresa llamada xAI. La idea del empresario era competir con OpenAI, Microsoft o Google, pero para enfrentarse a este tipo de rivales necesitaba un supercomputador cuyo rendimiento estuviera a la altura. Tras lanzar las primeras versiones de Grok, un rival de ChatGPT, xAI estrenó el pasado mes de julio el "clúster de entrenamiento IA más potente del mundo”, una bestia con 100.000 GPU H100 de NVIDIA situada en Memphis, Tennessee.

Ahora tenemos más detalles sobre este proyecto que, como hemos podido vez, se ha estado desarrollando contrarreloj. La información proviene de una interesante conversación que el CEO de NVIDIA, Jensen Huang, mantuvo esta semana con los presentadores del podcast BG2. El ejecutivo explicó que el equipo de xAI pasó de la etapa de concepto a la integración completa de las 100.000 unidades de procesamiento en el clúster de Memphis en solo 19 días, hito que se alcanzó con la primera tarea de entrenamiento, promocionada por Elon Musk en X.

Montando un centro de datos en 19 días

Huang explica que el proceso implicó no solo montar las GPU, sino también equipar a las instalaciones tanto con un sistema de refrigeración líquida como con un sistema de alimentación para que los chips pudieran funcionar. “Solo hay una persona en el mundo que podría hacer eso”, dijo el CEO de la segunda compañía más valiosa por capitalización bursátil, y añadió que gran parte del logro se debe a que sus equipos trabajaron con los “excelentes” equipos de software, redes e infraestructura de la nueva firma de IA de Musk.

Nvidia Hopper Architecture H100 Family Nvidia Hopper Architecture H100 Family

Las dimensiones del trabajo realizado pueden entenderse mejor con algunos datos interesantes que Huang aportó posteriormente. Según sus cálculos, poner en marcha un supercomputador de 100.000 GPU suele tardar unos cuatro años. Tres años se dedicarían a la planificación, mientras que el último año se recibiría el equipo, se instalaría y se probaría para que todo funcione. Es que montar un centro de datos dedicado a soportar altas cargas de trabajo es un auténtico desafío, un desafío que incluye corregir errores y trabajar la optimización.

Huang también explicó que la integración de 100.000 GPU H100 “nunca se había hecho antes”, y que no se verá en otra compañía durante un tiempo. Cuando hablamos del clúster de xAI estamos haciendo referencia a una infraestructura con tecnología de acceso directo de memoria remota (RDMA), que ofrece transferencias de datos rápidas y eficientes, lo que permite mejorar el rendimiento. Un aspecto clave es que se trata de una solución escalable, que podrá ser ampliada con el paso del tiempo, presumiblemente con GPU H200.

Imágenes | Nvidia (1,2) | xAI

En Xataka | Diferenciar el contenido IA en Internet es cada vez más difícil. La solución pasa por algo similar a los filetes



via Robótica e IA - Xataka https://ift.tt/QVoCULx

No hay comentarios:

Publicar un comentario