lunes, 20 de mayo de 2024

ChatGPT tiene cinco voces y una suena como la de Scarlet Johansson. Ha habido polémica y OpenAI ha decidido "pausarla"

ChatGPT tiene cinco voces y una suena como la de Scarlet Johansson. Ha habido polémica y OpenAI ha decidido

Lo último de OpenAI es impresionante. GPT-4o, su nuevo modelo de IA, es capaz de mantener una conversación fluida, entender lo que ve a través de la cámara y lo que le decimos y ofrecer respuestas de viva voz prácticamente en tiempo real. Es lo más cerca que hemos estado de hablar con las máquinas y la pregunta es ¿de dónde sale la voz? ¿Es una voz sintética o pertenece a alguien real? ¿Por qué la voz de la demo suena como la de Scarlet Johansson en 'Her'?

Cinco voces. Desde septiembre de 2023, ChatGPT tiene voz. Bueno, no voz, voces. Cinco, para ser exactos: Breeze, Cove, Ember, Juniper y Sky. Son voces sintéticas en el sentido de que no es posible doblar todas y cada una de las palabras y frases que se pueden formar en todos los idiomas que admite actualmente (37, el español entre ellos), pero detrás de esas cinco voces hay, efectivamente, personas reales. OpenAI ha explicado de dónde vienen.

¿Scarlet Johansson? Cuando OpenAI hizo la demo de GPT-4o no fueron pocos los usuarios que pensaron que la voz sonaba como la de la IA de la película 'Her' (que se llama Samantha, por cierto). Pero no. Aunque lo parece, la realidad es que esa voz lleva en ChatGPT desde hace mucho tiempo y su "nombre" es Sky. Según OpenAI, "no es una imitación de Scarlet Johansson, sino que pertenece a una actriz profesional que usó su voz natural".

Sin embargo, la compañía, viendo la confusión, ha decidido poner en pausa el uso de la voz Sky. Para proteger su privacidad, OpenAI no ha desvelado el nombre de los actores de voz.

Los requisitos. La selección de estas cinco voces fue muy meditada. A principios de 2023, OpenAI se alió con "con directores de casting y productores independientes, conocidos y galardonados" (cuyos nombres tampoco han sido desvelados) para crear una serie de criterios que las voces tenían que cumplir. Al fin y al cabo, van a ser voces escuchadas por muchísimas personas. Estos fueron:

  • Actores de orígenes diversos o que pudieran hablar varios idiomas
  • Una voz atemporal
  • Una voz accesible que inspire confianza
  • Una voz cálida, atractiva, que inspire confianza, carismática y con un tono rico
  • Natural y fácil de escuchar

400 actores, cinco seleccionados. En mayo de 2023, la agencia hizo un llamamiento y recibió unas 400 solicitudes. Los actores recibieron un guion de respuestas tipo de ChatGPT, como responder preguntas de mindfulness, hacer una lluvia de ideas para planear un viaje o tener una conversación mundana. Se seleccionan 14 voces que, posteriormente, quedaron reducidas a cinco. las sesiones de grabación fueron entre junio y julio. Según explican desde OpenAI:

"Todos los actores reciben una remuneración superior a la del mercado, y así seguirá siendo mientras sus voces se utilicen en nuestros productos".

Otras voces conocidas con nombres propios. De momento, no sabemos quiénes han puesto la voz a ChatGPT, pero sí sabemos los nombres de otras personas. Por ejemplo, la voz femenina de Tiktok se llama Kat Callahan. La voz de Google Maps en español es la de Nikki García y en el caso de Siri, su voz original en inglés original fue la de Susan Bennett.

Imagen | Solen Feyissa en Unsplash

En Xataka | Qué es un token cuando hablamos de IA y por qué es importante que Gemini admita un millón



via Robótica e IA - Xataka https://ift.tt/CTNLUpK

No hay comentarios:

Publicar un comentario