Hace un par de años, cuando todavía estábamos alucinando con las IAs que generaban imágenes, empezamos a hablar de vídeo. Era el salto natural. Al fin y al cabo, ¿acaso un vídeo no es una sucesión muy rápida de imágenes? Los primeros modelos eran… curiosos, dejémoslo ahí, pero evolucionaron. Llegaron propuestas como Pika, Stable Diffusion Video, el modelo de Bytedance y esta semana, para rematar, ha llegado Sora.
Sora es el modelo de generación de vídeo de OpenAI, empresa creadora de ChatGPT, y ha entrado en la conversación como un elefante en una cacharrería. La calidad que ofrece es impresionante y el resultado es buenísimo. Tiene todas las papeletas para revolucionar el vídeo de la misma forma que lo hizo con las imágenes y las ilustraciones. Para conocer qué ofrece, dónde está su potencial y, por supuesto, en qué falla, hemos hablado con varios editores de vídeo profesionales del equipo de Webedia. Esto es lo que nos han contado.
Muy espectacular a simple vista…
Fran J. Martín (@franjmartin) es realizador y Video Branded Content Manager en Webedia España. Lleva grabando y editando vídeos editoriales y para marcas desde 2015 y ha participado en procesos de realización, dirección y postproducción. En su opinión, “no sé si va a quitar el puesto de trabajo a un realizador, pero sí va a afectar a los bancos de imágenes de stock”.
Muchos de los vídeos que nos ha enseñado OpenAI son vídeos que, de necesitarlos para un proyecto local, tendríamos que o bien comprarlos a un banco de imágenes, o bien contratar a un equipo local o bien enviar a un equipo para grabarlos in situ. Para Fran, el usuario que “se va a Tokio, graba 45 planos en 4K y luego los vende, eso yo creo que con esto tiene los días contados”.
De acuerdo a Fran, el gran potencial de esta herramienta es la posibilidad de hacer los planos que nosotros realmente podamos necesitar y no podamos conseguir. “Tú puedes estar directamente editando y decirle que genere un plano de una pareja, pero que además tenga uno tenga una camiseta roja porque el vídeo es para X empresa”, nos cuenta.
También hace una reflexión interesante en lo referente a la animación de imágenes estáticas, una de las capacidades de Sora. Si bien en la del perrito con la boina francesa se difuminan las texturas para “suavizar los fallos”, en la de los monstruos la cosa cambia
“Esto me parece que está muy bien conseguido y los movimientos que hacen son bastante orgánicos, dentro de la animación de motion graphics que podría hacer un profesional. Esto puede ser un problema o una solución para muchos motion graphers que hacen este tipo de vídeos, porque [la imagen] tiene un movimiento bueno y hacerlo a mano lleva bastantes años de experiencia. Hay que hacer mucho keyframe y mucha curva de velocidad para que se vea así de guay. Ahora, aquí habría que ver cómo responde esta herramienta cuando le pedimos que uno de esos monstruos haga algún movimiento en concreto.
En un mundo ideal, si la IA fuera capaz de darnos la información de los movimientos que ha hecho para poder modificarla a nuestro antojo en After Effects, sería genial. Me imagino un mundo en el que la IA te hace todo el rigging de los muñecos, te lo anima a su gusto y te da todos eso fotogramas clave y curvas para modificar lo que quieras en After Effects”.
También ha apreciado el buen trabajo que hace Sora combinando vídeos (véase el plano del dron y la mariposa bajo el agua). “Obviamente me parece de lo más chulo e imaginativo y creo que hace un trabajo que a mano sería casi imposible. Aquí damos un minipunto enorme a la IA porque la capacidad de inventarse cosas y que medianamente encajen es brutal. Parece tu mente en un sueño”, afirma.
En ese sentido, coincide con otra compañera de la casa, Ana Boria (@ana_borbuj), del equipo de vídeo de Xataka. Ana lleva tres años produciendo y editando vídeo en Xataka y afirma que lo que ha visto hasta el momento le ha “parecido espectacular”. Aunque ya había otras IAs de generación de vídeo, Ana opina que lo diferencial de Sora es “lo que arriesga en los vídeos. Hay movimientos de cámara muy cinematográficos, muy arriesgados, giros muy dramáticos, y normalmente, cuando hemos visto vídeos [generados por IA] muy realistas eran animaciones muy sencillas, muy sutiles”.
Los vídeos, nos explica Ana, llaman la atención porque “no solo es el primer elemento que se mueve, sino todo lo que hay en el fondo, hay reflejos en el agua, la textura de la piel, los colores, todo me parece que bueno, que hay vídeos que no te puedo decir que son creados por una IA o que son vídeos reales, no noto la diferencia”.
Mario Arroyo (@embi41), compañero de vídeo, también opina que el potencial de esta herramienta para generar recursos es enorme. Es una opinión que comparte con Ana. Tal y como explica Ana, algunas veces es complicado encontrar recursos que ilustren lo que queremos decir “y con esto se me abre todo un mundo de posibilidades”.
Según Mario, Sora apunta maneras a la hora de “generar recursos de localizaciones a los que tú no puedes acceder por tus propios medios, como por ejemplo pueden ser unas tomas hechas con un dron. Tú le pides una toma de un dron en la que se vea una playa de arena con poquita gente y que esté lloviendo, y que tú puedas conseguir eso… Me parece que tiene muchísimo, muchísimo potencial”.
… pero hay que mirar más allá
La cosa es que, una vez salimos de nuestro asombro inicial, es fácil verle las costuras a Sora. Si echamos la vista atrás, recordaremos que con las primeras IAs generativas todo era alucinar, hasta que te fijabas en las manos (que ahí la que alucinaba era la IA). Manos con seis dedos, miembros que van a ninguna parte, cosas en el fondo que sin ningún tipo de sentido… Eso mismo se repite en Sora y si sacamos la lupa, como han hecho Fran, Ana y Mario, lo veremos muy claro.
Fran nos ofrece algunos ejemplos. El vídeo de la chica caminando por lo que parecen Japón, “en un principio y para un plano rápido puede colar […] Creo que consiguen muy bien añadir los reflejos en las gafas y aciertan con los de la luz del plano sobre la mujer”. Sin embargo, “si miras fijamente parece como si fuera una composición de croma, ya que el sujeto principal no está 100% bien integrado con el fondo”. También nos explica que “la mujer y el fondo avanzan a velocidades distintas” y que el bokeh “no es constante y orgánico”.
En cuanto a los vídeos de las tortugas, “aquí será porque no estamos tan acostumbrados al mundo submarino, pero es donde más irreal parece la tortuga. Es muy personaje de un videojuego. El fondo se nota que esta sacado de imágenes reales”.
En el del perro, “la iluminación es muy buena pero el tema de las texturas del pelo es un drama. Ahora mismo no se mueven con naturalidad, es como un animal hecho para un videojuego. Trabajan muy bien la integración de la sombra con la imagen de la chica. Eso si está bastante bien, pero se siguen notando las costuras”.
Otros clips que han llamado la atención son los de Japón, la pareja caminando por la montaña, el perro asomado a la ventana y el robot. Planos todos ellos que buscan demostrar la coherencia entre fotogramas. De acuerdo a Fran, estos vídeos tienen una “buena integración de luces”, pero “mala consistencia en el movimiento y mucha estética de videojuego en los objetos generados en 3D. Todavía nos choca demasiado la textura de la imagen real con la suavidad y falta de detalle y textura de las imágenes 3D”.
Ana, por su parte, nos cuenta que ha detectado fallos con imágenes, problemas a la hora de recrear bien movimientos de las manos o incluso de la cara, gestos… Hay determinadas cosas que yo creo que le va a resultar más complicado conseguir, como transmitir emociones de la gente a través de los gestos y toda la emoción general, cómo vaya modificando la cara para transmitir esa emoción… Yo creo que puede ser complicado”.
Además, y como Mario, se ha percatado del problema que tiene con las manos y las zonas oscuras. “Igual que hay vídeos que las manos que aparecen, como tienen una presencia más protagonista, aparecen muy reales, hay otros en los que no. Por ejemplo, se me viene a la cabeza el vídeo de una señora mayor soplando unas velas. Detrás está lo que se supone que es su familia aplaudiendo y las manos de prácticamente todos son un cuadro”.
Otro aspecto a destacar es el de las físicas. “Pasa mucho en los videojuegos, es difícil conseguir que las físicas, que los movimientos, que los objetos pesen lo que tengan que pesar y que todo lo que ocurra en escena sea natural, me parece muy complicado. Si ya es difícil que un humano anime eso y que consiga que tenga el efecto que tiene que tener, creo que también le va a resultar difícil a la IA. ¿Que lo va a conseguir? Sí, por supuesto. Es cuestión de tiempo”.
Mario añade que, si bien es cierto que los resultados están muy bien, descendemos un poquito por el valle inquietante en ciertos planos en los que aparecen personas, como el ya mencionado vídeo de la mujer soplando las velas. “El movimiento de las caras de algunas personas, que se nota que son ‘muy NPCs’, que se deforma, que va como a saltos, no es fluido”, apunta el editor. “También creo que hinca la rodilla a la hora de hacer vídeos de noche, que si te fijas es de los que menos hay. Cuando hace vídeos de noche la iluminación me parece muy exagerada”, concluye.
Mucho trabajo por hacer, pero un potencial enorme
Que el lanzamiento de Sora haya hecho tanto ruido tiene cierta razón de ser. El panorama ha cambiado muchísimo desde aquella foto de una nuez partida por la mitad y desde ese ChatGPT que parecía magia. Estos modelos han mejorado y recibido algo de competencia de paso, pero OpenAI ha sido la que, de alguna manera, ha marcado el camino y aumentado los límites. Lo que OpenAI ha conseguido hasta el momento en texto e imagen es impresionante, y ahora se ha metido en vídeo.
Evidentemente, esta tecnología plantea retos enormes en todos y cada uno de los aspectos. El mismo debate de las imágenes, la voz, la música y el texto es aplicable al vídeo y Sora, si bien no es el primer modelo de este tipo, si tiene lo necesario para marcar un antes y un después. Al menos por lo que nos ha enseñado OpenAI, porque hasta nuevo aviso no vamos a poder catar este modelo por nosotros mismos.
En cualquier caso, tiene un potencial enorme en todos y cada uno de los aspectos que nos podamos imaginar. Yo, a título personal y como creador de contenido en TikTok, veo en Sora una herramienta fantástica para conseguir cosas que de otra manera no podría conseguir. Hablo de vídeos sobre el espacio y sus rincones, lugares que nadie puede grabar; planos tan específicos que quizá no existan, abstracciones que sirvan para ilustrar ideas. Es en estos puntos donde, personalmente, le encuentro potencial.
Sora no es perfecta. Sería preocupante si lo fuera. Si miras los vídeos publicados por OpenAI con lupa les verás las costura, pero más allá de eso, lo realmente interesante será mirar estos vídeos dentro de cinco años, porque hoy estamos solo al principio, pero el principio tiene una pinta brutal.
Imágenes | OpenAI
En Xataka | Google se enfrenta a dos guerras en el campo de la IA: la primera contra OpenAI y la segunda contra sí misma
via Robótica e IA - Xataka https://ift.tt/eRJPwOE
No hay comentarios:
Publicar un comentario