En 1956 un grupo de científicos, matemáticos y pensadores se reunieron en el Darmouth College. Entre ellos estaban Marvin Minsky, Claude Shannon o John Nash —el de 'Una mente maravillosa'— se reunieron para hablar de una disciplina totalmente nueva. Ahora esas dos palabras están por todas partes, pero en aquel momento sonaban extrañas y utópicas.
Esas dos palabras no eran otras que inteligencia artificial.
Ese nombre se le ocurrió a John McCarthy, el joven profesor de aquella institución que trabajó durante un año en organizar ese ciclo de reuniones. Todos los que participaron en ese congreso salieron entusiasmados con el proyecto de crear una inteligencia artificial, aunque acabarían darse de bruces con una realidad terrible: se habían adelantado a su tiempo. La capacidad de computación de la época no permitía resolver los grandes retos de la IA.
Hola, redes neuronales artificiales
Sin embargo, la disciplina siguió desarrollándose y poco a poco se fue avanzando en varios de sus pilares. Uno de ellos, las redes neuronales artificiales (ANNs, por sus siglas en inglés) fue especialmente prometedor para uno de los grandes problemas que se planteaban: el reconocimiento de patrones.
Ese problema permitía por ejemplo interpretar imágenes y que una máquina pudiese reconocer lo que mostraba una imagen. Que un perro era un perro o un humano un humano, por ejemplo. El trabajo en ese campo evolucionó de forma errática, pero en 1982 pasó algo.
Ese año John Hopfield, físico teórico —nacido en 1933, e hijo de dos físicos teóricos— publicó un trabajo sobre un modelo de una memoria asociativa basada en una red neuronal recurrente. Los conceptos que manejó estaban muy ligados al campo de la física a pesar de aplicarse al ámbito de la computación —en concreto, a la descripción de materiales magnéticos—, y Hopfield tenía eso muy claro.
Su idea era singular y permitía que un sistema inicializado con un patrón incorrecto —por ejemplo, una palabra mal deletreada— acababa "atraído por un nodo "de mínima energía" de la red neuronal, lo que daba como resultado la corrección del sistema —que la palabra resultado fuese escrita correctamente—.
La idea acabó desembocando en un trabajo de Hopfield y David Tank de 1986. En él proponían un sistema que resolvía problemas complejos inspirado en cómo se comportan los sistemas físicos a lo largo del tiempo.
En el "modelo analógico", como lo llamaban, en lugar de trabajar con números (ceros y unos) y ordenadores, usaban un sistema que cambiaba de forma suave, gradual y continua. Codificaban el problema con una red en la que las conexiones entre las distintas partes de la red tenían ciertos pesos y eso guiaba al sistema a lograr la mejor solución. Según la Real Academia Sueca de Ciencias, "Hopfield hizo una contribución fundacional a nuestro entendimiento de las capacidades computacionales de las redes neuronales".
Precisamente para "redondear" el trabajo de Hopfield fue crucial la labor de Geoffrey Hinton, que entre 1983 y 1985 trabajó con Terrence Sejnowski y otros investigadores para desarrollar una extensión estocástica (probabilística) del modelo de Hopfield de 1982. Lo llamó la máquina de Boltzmann, y tenía una peculiaridad que seguro que nuestros lectores captan fácilmente:
Era un modelo generativo.
En eso se diferenciaba del modelo de Hopfield. Aquí Hinton se centraba en distribuciones estadísticas de patrones, y no en patrones individuales. Su máquina de Boltzmann —también una red neuronal recurrente— contenía nodos visibles que se correspondían con los patrones que debían ser "aprendidos". El sistema trata de aprender cómo de buenas o malas son las distintas soluciones al resolver al problema, no se centra en una única solución exacta.
Además de los nodos visibles, la máquina tiene nodos ocultos, componentes adicionales que permiten a la máquina capturar relaciones más complejas y variadas entre esos patrones. Esos nodos ocultos permiten además modelar la capacidad de comprender más posibilidades, en lugar de estar limitadas a los patrones específicos que nosotros le mostramos. O lo que es lo mismo: puede generar cosas que no había visto pero que probablemente tienen sentido.
De las ANNs a ChatGPT
Tanto el modelo de Hopfield como la máquina de Boltzmann permitieron desarrollar aplicaciones muy interesantes en los años siguientes. Entre otros, en reconocimiento de patrones en imágenes, textos y datos clínicos. A partir de ese trabajo Yann LeCun (ahora máximo responsable de IA en Meta) y Yoshua Bengio vislumbraron las redes neuronales convolucionales (CNN) que se aplicaron a cosas curiosas: varias entidades bancarias en EEUU usaron el trabajo de LeCun para clasificar los dígitos manuscritos en cheques a mediados de los 1990.
La contribución de Hinton no terminó ahí. Con el cambio de milenio desarrolló una variante de su proyecto llamada máquina de Boltzmann restringida que funcionaba mucho más rápido y que permitía trabajar con redes muy densas y con muchas capas, lo que daría lugar a la creación de una disciplina especialmente conocida: el aprendizaje profundo o deep learning.
Las aplicaciones de las ANNs han acabado siendo extraordinarias en muchos campo como la astrofísica o la astronomía, pero también, cómo no, en el campo de la computación. La academia sueca pone como ejemplo AlphaFold, el proyecto de DeepMind, pero este tipo de modelos con redes neuronales artificiales se usan por ejemplo en chatbots como ChatGPT, Gemini o Claude.
El trabajo de los dos Premios Nobel de física ha sido por tanto fundamental para toda la evolución de este campo, y aunque tanto antes como durante y después de Hopfield y Hinton muchas más personas contribuyeron a desarrollarlo, su labor les ha convertido en "padres de la IA" y además ha sido considerada como merecedora de este prestigioso galardón.
Imagen | Collision Conf | Bhadeshia
via Robótica e IA - Xataka https://ift.tt/CnyPvpe
No hay comentarios:
Publicar un comentario