miércoles, 13 de noviembre de 2024

La IA generativa apenas está mejorando: entrenar modelos con más y más GPUs y datos ya no sirve de mucho

La IA generativa apenas está mejorando: entrenar modelos con más y más GPUs y datos ya no sirve de mucho

Se acerca un nuevo modelo de OpenAI llamado Orion. Eso hace unos meses hubiera sido emocionante, pero lo cierto es que las expectativas con respecto a este lanzamiento están a la baja. La sensación es que estamos viviendo una desaceleración de la IA generativa, y hay una persona importante que está totalmente de acuerdo con ese argumento. Una que fue responsable de la creación de ChatGPT, de hecho.

Ilya Sutskever. Este cofundador de OpenAI fue uno de los principales artífices de ChatGPT, pero acabó abandonando la compañía en mayo para luego crear su propia startup de inteligencia artificial, llamada Safe Superintelligence Inc (SSI). Su objetivo es crear una superinteligencia con seguridad "nuclear", pero no lo hará siguiendo el camino que ha marcado OpenAI en los últimos tiempos.

La IA generativa se ha estancado. Este experto indicó en Reuters que el enfoque tradicional de desarrollo de modelos de IA generativa se ha estancado. El entrenamiento masivo de un modelo de IA usando un gran conjunto de datos sin etiquetar para que el modelo detecte patrones y estructuras ya no da más de sí, e incluso tratar de hacerlo más y más grande no da ya demasiado resultado, explica. Yann LeCun, máximo responsable de IA en Meta, coincide con esa apreciación y de hecho lleva defendiendo ese argumento desde hace tiempo.

Más no es mejor. En los últimos tiempos hemos visto cómo las grandes empresas que invierten en este tipo de modelos no paraban de usar cada vez más GPUs, que a su vez eran más potentes e ingerían más y más datos, pero la evolución de los últimos modelos respecto a sus antecesores parece no ser tan notable como la que vivimos en 2023 y a principios de 2024.

Tanto entrenamiento para nada. Fuentes consultadas por Reuters indicaban que los laboratorios que desarrollan nuevos modelos de IA están sufriendo retrasos y resultados decepcionantes en su evolución. Los ciclos de entrenamiento pueden costar decenas de millones de dólares y tardar meses en completarse, y lo malo es que no se puede saber por adelantado si el proceso será exitosos. Hay que esperar a que el ciclo termine para averiguar si ha valido la pena y el salto en prestaciones es o no destacable. 

Expectativas a la baja. En Bloomberg confirmaban hoy los datos que aparecieron hace unos días sobre Orion y OpenAI. El modelo no representa de momento un gran salto respecto a GPT-4o, y puede que aun tardemos en verlo para que haya tiempo de pulirlo. En Google la nueva versión de Gemini parece estar pasando por la misma situación según fuentes cercanas a su desarrollo, y Anthropic está retrasando la salida de Claude 3.5 Opus, la versión teóricamente más potente y capaz de su familia. En todos los casos, la situación es la misma: estos nuevos modelos son algo mejores que sus predecesores, pero no lo suficiente para lanzarlos. 

O1 O1 O1 es el modelo de OpenAI que trata de ofrecer mejores respuestas "razonando": analiza varias posibilidades antes de contestar y elige la que considera más precisa.

Sutskever es optimista. Aun así, este experto explicaba que "la década de 2010 fue la era del escalado [de recursos y entrenamiento], y ahora estamos de nuevo en la era del asombro y el descubrimiento. Todo el mundo busca qué será lo siguiente". La declaración es llamativa, pero poco específica, y no aclara a qué se refiere, algo extraño teniendo en cuenta que el asombro y el descubrimiento acompañaron precisamente a ChatGPT en sus inicios. Ahora nos hemos acostumbrado un poco a estos chatbots, lo que ha reducido esa capacidad de asombro.  En cualquier caso, para él no se trata de escalar sin más, sino de "escalar lo correcto".

Tiene plan B, pero no da pistas. Sutskever no quiso compartir detalles de cómo él y su equipo están trabajando para evitar esas limitaciones de las IAs generativas actuales. Solo indicó que estaba trabajando en un camino alternativo al escalado del entrenamiento, pero no dio detalles. Su trayectoria es notable, así que será interesante saber qué tipo de solución plantea con su startup.

Obligando a la IA a que "razone". Una de las técnicas que se están utilizando para tratar de superar estos problemas es la llamada "test-time compute". En ella se obliga al modelo a que evalúe múltiples respuestas en tiempo real para luego acabar eligiendo la mejor. Es justo lo que hace el modelo o1 de OpenAI, que en cierto sentido "razona" al revisar sus respuestas para tratar de descartar las incorrectas y elegir la más precisa. Otras empresas como Anthropic, xAI, Microsoft y Google están planteando sus propios modelos siguiendo esta misma aproximación.

De las GPUs para entrenar a las GPUs para inferencia. Este tipo de procesos hacen que ahora el interés parezca estar migrando hacia hardware especializado para la inferencia. Jensen Huang ya indicó el mes pasado que habían descubierto que hay una "segunda ley del escalado" que apuesta por tener más y más chips dedicados a la inferencia. Según él, eso ha hecho que "la demanda por Blackwell sea increíblemente alta". Sus nuevos chips especializados de IA pronto comenzarán a estar disponibles en centros de datos, pero también es cierto que la competencia va a intentar aprovechar su oportunidad.

Imagen | OpenAI

En Xataka | El liderazgo de NVIDIA en chips para IA no depende solo de ella misma. Está en las manos de esta empresa surcoreana



via Robótica e IA - Xataka https://ift.tt/gi5ZxBL

No hay comentarios:

Publicar un comentario