La carrera por lograr el modelo de lenguaje más preciso y con mejor comportamiento continúa, y aunque OpenAI parece llevar la delantera con GPT-4, las alternativas —y no solo las Open Source— avanzan. Lo demuestran el modelo PaLM 2 de Google, pero también el modelo LLaMa de Meta (Facebook) que ahora tiene una variante prometedora llamada LIMA.
Dos entrenameientos muy distintos. Como explica un reciente estudio de Meta, los grandes modelos de lenguaje se entrenan en dos fases. En la primera se realiza un entrenamiento no supervisado que parte de texto en crudo y que permite aprender en un escenario de propósito general. En la segunda se realiza una depuración de esos modelos y se aplica aprendizaje por refuerzo para alinear el modelo a ciertas tareas o preferencias de usuario.
LIMA. Esto último es precisamente lo que ha hecho Meta al entrenar y lanzar LIMA (Less Is More for Alingment), un modelo de lenguaje basado en LLaMa con 65 millones de parámentros y que se ha afinado con tan solo 1.000 prompts y respuestas especialmente preparados para que se comporte de la forma adecuada. No ha sido necesario aprendizaje por refuerzo ni modelado basado en preferencias humanas, pero aún así su comportamiento ha acabado siendo sobresaliente.
Las pruebas. El modelo ha sido desarrollado por Meta en colaboración con la Universidad Carnegie Mellon, la Universidad del Sur de California y la Universidad de Tel Aviv. Según las pruebas de los investigadores, el rendimiento de LIMA es fantástico y aprende a seguir formatos de respuesta específicos con tan solo un puñado de ejemplos en sus datos de entrenamiento. Es incluso capaz de generalizar bien en tareas novedosas para él que no aparecían en el conjunto de datos de entrenamiento.
Tan bueno o mejor que GPT-4 y Bard. En un estudio controlado por estos investigadores las respuestas de LIMA demostraron ser equivalentes o preferibles a las que arrojaba GPT-4 en el 43% de los casos. La cosa mejora cuando se le comparaba con Bard (58%) e iba más allá al compararlo con DaVinci0003 (de OpenAI) con u 65%. Todo ello "sugiere que casi todo el conocimiento de los grandes modelos lingüísticos se aprende durante el preentrenamiento, y que sólo es necesario un limitado conjunto de datos de afinado para enseñar a los modelos a producir resultados de alta calidad", aseguraron los responsables del estudio.
El RLHF quizás no es para tanto. Una de las conclusiones importantes del estudio es que el uso de la técnica Reinforcement Learning from Human Feedback (RLHF) no aporta tantas mejoras como se creía. En este sistema una serie de usuarios humanos recompensan al modelo para optimizar su comportamiento a medida que lo van entrenando. Es un proceso caro que utilizan en OpenAI para afinar sus modelos y que por ejemplo usan en GPT-4 para mejorar las prestaciones del modelo.
Hipótesis del alineamiento superficial. Según Meta esto plantea esa hipótesis en la que la llamada fase de alineamiento tras el entrenamiento inicial se debe centrar en enseñar al modelo un cierto formato o estilo al que pueda acudir en la interacción con los usuarios. Así pues, ese "afinado" del modelo trata más del estilo que de la sustancia (más de la calidad que de la cantidad, podría decirse).
Pero. Aún así, el equipo de investigadores de LIMA destaca que construir esos conjuntos de datos con ejemplos de alta calidad es todo un reto y no siempre es una opción escalable. Aún con estos resultados, LIMA sigue estando algo por debajo de GPT-4: genera buenas respuestas, pero un prompt especial que trate de ponerlo en aprietos o un mal ejemplo en su afinado podría llevar a ofrecer respuestas no tan precisas.
Los LLM pierden algo de relevancia. Para Yann LeCun, de Meta, el comportamiento de LIMA demuestra que invertir en el desarrollo de nuevos y grandes LLM será importante a corto plazo, pero no lo será a medio plazo, "no al menos sin algunos grandes cambios", indicaba en un reciente tuit.
via Robótica e IA - Xataka https://ift.tt/i10zHJQ
No hay comentarios:
Publicar un comentario