El lanzamiento de Sora hace unos días ha vuelto a asombrarnos por el realismo logrado en esos vídeos generados por IA. Sin embargo este modelo es distinto a ChatGPT y desde luego a DALL-E.
Y lo es porque mietras que ChatGPT trata de "adivinar" por probabilidad las palabras adecuadas para contestar a nuestras preguntas, Sora trata de simular la física del mundo real. Es al menos lo que indican expertos en inteligencia artificial como Jim Fan, que trabaja en NVIDIA y que está fascinado por este modelo en particular.
Ese vídeo es una buena demostración de su teoría. En él se le pide al modelo que simule una batalla naval entre dos barcos piratas que navegan en una taza de café. El vídeo resultante no es perfecto, pero sigue siendo asombroso por varios motivos.
Para empezar, porque los dos barcos navegan evitándose el uno al otro, pero también porque la mecánica de fluidos del café, espuma incluida, es especialmente llamativa. Como indica Fan, "la simulación de fluidos es un subcampo por sí mismo en los gráficos generados por ordenador, y tradicionalmente requiere algoritmos y ecuaciones muy complejas". El simulador incluso tiene en cuenta que la escena tiene lugar en una taza de café y aplica la técnica fotográfica tilt-shift para darle un aspecto aún más curioso al vídeo resultante.
Muchos criticaban la opinión de Fan en las respuestas a su hilo y argumentaban que Sora "simplemente está manipulando pixels en 2D". Este experto cree que esa es una teoría reduccionista y es como decir que "GPT-4 no aprende a programar, solo está muestreando cadenas de texto".
Para él la simulación de física "suave" de Sora es una "propiedad emergente" que se ampliará de forma masiva con el entrenamiento de texto a vídeo. Como se ve en ese vídeo del vaso, la física es imperfecta. Los propios responsables de OpenAI lo dejaban claro en su informe técnico, en el que decían que "En la actualidad Sora exhibe numerosas limitaciones como simulador. Por ejemplo, no modela de forma precisa la física de muchas interacciones básicas, como cuando se rompe un cristal".
Fan explicaba que eso es normal. GPT-4 aprende la sintaxis, semántica y estructuras de datos para por ejemplo generar código ejecutable de Python, no puede soltar cadenas de texto sin más, destacaba. Sora hace algo parecido y según él "debe aprender algunas formas implícitas de conversión de texto a 3D, transformaciones 3D, renderizado con trazado de rayos y reglas físicas para modelar los píxeles del video con la mayor precisión posible".
Lo compara además con el motor de renderizado de Unreal Engine 5: mientras que este último es un proceso muy complejo que genera píxeles de vídeo, Sora también los genera aprendiendo de los datos de entrenamiento y es "intuitivo". Para Fan Sora es más como era GPT-3 en 2020: una demostración de que el aprendizaje en contexto que tiene ese modelo era una propiedad emergente que iría a más, como ha ocurrido con GPT-4. "No te obsesiones con las imperfecciones de GPT-3. Piense en extrapolaciones a GPT-4 en un futuro próximo", concluye.
Otro experto en este ámbito, Alberto Romero, explicaba cómo Sora es un transformador de difusión. Combina un modelo de difusión —como el de DALL-E 3— con un modelo transformer como el que se usa en ChatGPT: una red neuronal que aprende contexto mediante el seguimiento de relaciones en datos secuenciales. Según algunos expertos, Sora ha sido entrenado parcialmente con Unreal Engine 5 y otros motores 3D. Él mismo destacaba que este modelo es un simulador primitivo de nuestro mundo, algo que le preocupa y le impresiona especialmente:
"OpenAI afirma que Sora no sólo entiende el estilo, el escenario, el personaje, los objetos y conceptos presentes en el prompt, etc., sino también "cómo existen esas cosas en el mundo físico". Quiero matizar esta afirmación diciendo que los espeluznantes fallos de Sora revelan que, aunque podría haber aprendido un conjunto implícito de reglas físicas que informan el proceso de generación de vídeo, no se trata de una capacidad robusta (OpenAI lo admite). Pero sin duda es un primer paso en esa dirección".
Romero coincide con la apreciación de Jim Fan y nos recuerda que la propia OpenAI concluía su anuncio en el blog oficial con una frase reveladora: "Sora sirve de base para modelos capaces de comprender y simular el mundo real, una capacidad que creemos que será un hito importante para lograr la inteligencia artificial." O, como dice Romero, "¿cómo de lejos estamos de 'The Matrix'?".
En Xataka | Llevo nueve años editando vídeo de forma profesional. Así creo que Sora me va a cambiar el trabajo y la vida
via Robótica e IA - Xataka https://ift.tt/4Zi9r7A
No hay comentarios:
Publicar un comentario