Hablar con un acento regional puede llegar a penalizar económicamente hasta un 20% en el sueldo. No hay acentos mejores que otros, pero en el mundo anglosajón no tener acento americano o británico al hablar inglés puede ser motivo de discriminación en determinadas ocasiones como al conseguir una oferta de trabajo o al realizar llamadas comerciales.
Para intentar corregir este asunto está Sanas, una startup norteamericana que recientemente ha conseguido una ronda de financiación por valor de 5,5 millones de dólares para continuar el desarrollo de su plataforma de inteligencia artificial, la primera en aplicar algoritmos en tiempo real y "neutralizar" el acento.
Transformando acentos en tiempo real
Sanas es una "tecnología de traducción en tiempo real que permite que quien hable lo haga con el acento que desee sin ningún retraso notable", explican desde la propia compañía.
Sanas.AI es capaz de reconocer mediante algoritmos acentos como el español y aplicar una modificación para que al otro lado de la llamada suene con otro acento concreto, principalmente el americano estándar.
Se trata de un software instalado localmente en el dispositivo, lo que significa que no debe conectarse a los servidores de la plataforma para poder funcionar.
Según describen se integra en el sistema de sonido del sistema operativo, por lo que creen ser capaces de ser compatibles con cualquier herramienta de audio o vídeo. Si bien, por el momento el sistema ha sido probado en forma de programa piloto con miles de personas en los Estados Unidos, Filipinas y la India. Debido al éxito en varios centros de llamadas, la compañía ha conseguido la ronda de financiación para continuar con el trabajo.
A finales de año esperan poder reducir y "traducir" acentos como el americano, español, británico, indio, filipino y australiano.
Según los datos de la compañía, con su sistema aumentar la claridad de las conversaciones y han mejorado la fluidez en un 40%, reduciendo incluso los errores con Google TTS en un 20,5%.
El tiempo de latencia para la aplicación de esta modificación del audio está en unos 200 milisegundos, una latencia relevante respecto a las llamadas estándar pero sin llegar a suponer una barrera insalvable.
Según describe TechCrunch, el resultado es mejorable en cuanto a si bien sí se pierde el acento original, el resultado es algo más mecánico y la cadencia y personalidad de la voz queda difuminada.
Sanas ha sido creado por un equipo de estudiantes de ingeniería de Stanford y distintos expertos en aprendizaje automático del habla. "Queremos hacer que la comunicación sea fácil y libre de fricciones, para que las personas puedan hablar con confianza y entenderse entre sí, donde sea que estén y con quien estén tratando de comunicarse", explica Maxim Serebryakov, fundador de esta herramienta.
via Robótica e IA - Xataka https://ift.tt/3niujnR
No hay comentarios:
Publicar un comentario