Siempre se habla de la automatización en los flujos de trabajo, pero la automatización de la mano del aprendizaje de máquina, cada vez se hace más presente en el entorno de las producciones en vivo. Este es el caso de la compañía NHK Engineering Systems, que ha desarrollado un medio para generar automáticamente descripciones de audio auxiliares a partir de metadatos para su uso en programas de deportes de TV en vivo.
De acuerdo con la compañía, el objetivo es proporcionar comentarios de programa automáticos que sean útiles para las personas videntes. El otro es proporcionar descripciones de audio que pueden ayudar a las personas con discapacidad visual a sacar más provecho de la televisión.
“En nuestro desarrollo, primero construimos un prototipo de sistema para generar automáticamente descripciones de audio a partir de datos de eventos recopilados en los Juegos Olímpicos y Paralímpicos de Río de Janeiro en 2016. Nuestro objetivo era producir programas de prueba adjuntando automáticamente comentarios al video, sin agregar manualmente cualquier comentario, y examinar los problemas que surgieron” indican los desarrolladores.
El sistema genera oraciones de comentarios deportivos a partir de metadatos deportivos y luego lee en voz alta mediante el text-to-speech synthesis (TTS). Las descripciones de audio se pueden generar automáticamente a partir de los metadatos deportivos y las secuencias de video.
“TTS funciona mediante síntesis paramétrica estadística (SPS-TTS), que reconstruye el habla en formas de onda que utilizan parámetros acústicos predictibiles a partir del modelado acústico de un discurso”.