Mark Zuckerberg puede decir misa. Los modelos Llama no son Open Source. No al menos en el sentido estricto de la definición, porque como explicaban hace tiempo en Open Source Initiative, "Meta confunde "Open Source" con "recursos disponibles para algunos usuarios en determinadas condiciones", dos cosas muy distintas".
Esos comentarios, que se realizaron tras el lanzamiento de Llama 2, son igualmente válidos para la nueva familia de modelos de IA generativa de Meta. En ambos casos, como en el resto de la industria, estamos presenciando cómo estos modelos cogen todo lo que pueden de la internet pública (y probablemente, parte de la privada), además de usar, como en este caso, el término Open Source con demasiada alegría. Veamos por qué.
Voracidad infinita
Bautizados como Llama 3.1, estos modelos son prometedores en cuanto a prestaciones y pueden superar incluso a GPT-4o o a Claude 3.5, pero es que además de destacar esa potencia y versatilidad, Mark Zuckerberg destacaba en una carta abierta cómo "La IA Open Source es el camino adelante".
Es el mismo discurso que por ejemplo hacía tras la presentación de los modelos en una entrevista en Bloomberg, aunque allí sí admitía que Meta mantiene en secreto los conjuntos de datos que han usado para entrenar a Llama 3.1. "Aunque es abierto, también estamos diseñando esto por nosotros mismos", destacaba, y solo indicó que se han usado publicaciones de Facebook e Instagram, además de conjuntos de datos propietarios licenciados de otros, sin especificar más.
Esa falta de transparencia es común en la industria: no sabemos cómo se han entrenado exactamente otros modelos como GPT-4 o Claude 3.5, totalmente cerrados y propietarios. Es probable que en estos y otros casos se hayan recolectado datos sorprendentes: uno de esos conjuntos de datos, por ejemplo, contiene 5.000 "tokens" de mi blog personal.
La voracidad de estos modelos parece infinita. Eso ha provocado polémicas y demandas, pero también acuerdos para que las empresas de contenidos licencien sus textos, imágenes y vídeos para entrenarlos. A veces ni siquiera piden permiso: OpenAI se quedó sin datos para entrenar su IA, así que transcribió un millón de horas de YouTube para entrenar a GPT-4, por ejemplo.
"Open Weights" no es lo mismo que "Open Source"
Es cierto que el modelo está libremente disponible en GitHub, y eso es desde luego destacable: como sucedió con Llama 2, estos modelos podrán ser utilizados por empresas y desarrolladores independientes para crear modelos de IA derivados de Llama 3.1.
Es algo similar a lo que ocurre con las distribuciones GNU/Linux, que parten de un núcleo Linux y una serie de componentes a los que luego añaden sus propios elementos adicionales.
La licencia de uso de Llama 3 permite desde luego trabajar de esa forma, pero también impone una barrera clave en su licencia: los modelos derivados de Llama 3.1 son gratuitos salvo que tengan demasiado éxito. Si el modelo acaba siendo usado por más de 700 millones de usuarios activos al mes, habrá que contratar una licencia a Meta.
Pero como ocurre en otros casos, lo que además comparte Meta son los llamados "pesos", que proporcionan información sobre cómo se realizan sus cálculos. Eso permite que cualquiera pueda descargar los ficheros de la red neuronal ya entrenada, y luego usarla directamente o pulir su funcionamiento para sus propios casos de uso. Hacer algo así hace que estos modelos, más que Open Source, sean considerados "Open Weights".
Como explican en Ars Technica, esto contrasta con lo que ocurre en modelos propietarios como los de OpenAI, que no comparten esos pesos y monetizan los modelos a través de suscripciones a ChatGPT Plus o bien a través de una API.
Ese uso del término "abierto" ("open") por parte de muchos proyectos de IA, Llama 3.1, incluido, hace que cada vez haya más escrutinio al respecto (que se lo digan a OpenAI, que lo usa como parte del nombre de suempresa).
Es lo que por ejemplo destaca una interesante investigación de un equipo en la Universidad de Radboud en Nijmegen, Países Bajos. Los responsables del proyecto han analizado diversos modelos de IA, calificando una serie de parámetros que permiten valorar si los modelos son más o menos abiertos.
El resultado es una tabla fantástica en la que podemos comprobar rápidamente dos cosas. La primera, que ningún modelo es perfecto en este sentido. Y la segunda, que los modelos de Meta están muy abajo en esa calificación, y es por tanto muy difícil considerarlos como Open Source.
Simon Willison, cocreador del entorno de programación Django y experto en este ámbito, comentaba que la carta abierta de Mark Zuckerberg era un "documento fascinante" e "influyente", pero además destacaba que "parece no obstante que hemos perdido la batalla en términos de conseguir que dejen de usar incorrectamente el término Open Source".
Efectivamente la influencia de Zuckerberg hace que sea difícil que el público general no acepte que en efecto los modelos de Meta son Open Source cuando no lo son del todo. Como explicaba Willinson en comentarios en Ars Technica:
"Considero que el destacado mal uso que hace Zuck del "Open Source" es un acto de vandalismo cultural a pequeña escala. El código abierto debe tener un significado consensuado. Abusar del término debilita ese significado, lo que hace que el término sea menos útil en general, porque si alguien dice 'es de código abierto', eso ya no me dice nada útil. Y entonces tengo que indagar y averiguar de qué están hablando en realidad".
Así es, ciertamente. Ese uso masivo —y no solo por parte de Zuckerberg— ha debilitado el concepto, en parte porque no hay una definición universal y aceptada de qué es en realidad Open Source en general, y de qué es un modelo Open Source de IA en particular.
Imagen | Black011 con Midjourney
via Robótica e IA - Xataka https://ift.tt/QG5F7zn
No hay comentarios:
Publicar un comentario