Table Of ContentTesis Doctoral
Síntesis de voz aplicada a la
traducción voz a voz
Pablo Daniel Agüero
Director de Tesis:
Antonio Bonafonte Cávez
TALP Research Centre, Speech Processing Group
Departamento de Teoría de la Señal y Comunicaciones
Universidad Politécnica de Cataluña (UPC)
Barcelona, 2012
A mi viejo
Resumen
Dentro delas tecnologías delhabla, la conversión texto a voz consiste en la generación,
por medios automáticos, de una voz artificial que genera idéntico sonido al producido por
una persona al leer un texto en voz alta. En resumen, los conversores texto a voz son
sistemas que permiten la conversión de textos en voz sintética.
El proceso de conversión texto a voz se divide en tres módulos básicos: procesamiento
del texto, generación de la prosodia y generación de la voz sintética. En el primero de
los módulos se realiza la normalización del texto (para expandir abreviaciones, convertir
números y fechas en texto, etc), y en ocasiones, luego también se hace un etiquetado
morfosintáctico. A continuación se procede a la conversión de los grafemas en fonemas
y a la silabificación para obtener la secuencia de fonemas necesaria para reproducir el
texto. Posteriormente, el módulo de prosodia genera la información prosódica para poder
producir la voz. Para ello se predicen las frases entonativas y la entonación de la oración,
y también la duración y la energía de los fonemas, etc. La correcta generación de esta
información repercutirá directamente en la naturalidad y expresividad del sistema. En
el último modulo de generación de la voz es donde se produce la voz considerando la
información provista por los módulos de procesamiento del texto y prosodia.
El objetivo de la presente tesis es el desarrollo de nuevos algoritmos para el entrena-
mientodemodelosdegeneracióndeprosodiaparalaconversióntextoavoz,ysuaplicación
en el marco de la traducción voz a voz. En el caso de los algoritmos de modelado de ento-
nación, en la literatura se proponen generalmente enfoques que incluyen una estilización
previa a la parametrización. En esta tesis se estudiaron alternativas para evitar esa esti-
lización, combinando la parametrización y la generación del modelo de entonación en un
todointegrado.Dicho enfoqueharesultadoexitosotanto enlaevaluación objetiva(usando
medidas como el error cuadrático medio o el coeficiente de correlación Pearson) como en
la subjetiva. Los evaluadores han considerado que el enfoque propuesto tiene una calidad
y una naturalidad superiores a otros algoritmos existentes en la literatura incluidos en las
evaluaciones, alcanzando un MOS de naturalidad de 3,55 (4,63 para la voz original) y un
MOS de calidad de 3,78 (4,78 para la voz original).
En lo referente al modelado de la duración se estudió la influencia de los factores
segmentales y suprasegmentales en la duración de los fonemas. Con los resultados de
este estudio se propusieron algoritmos que permiten combinar la información segmental
y suprasegmental para realizar una predicción de la duración de los fonemas, tal como se
propuso en otras publicaciones del tema en cuestión. A través de un estudio de los datos
de entrenamiento se demostró la dependencia entre la duración de la sílaba y el número
de segmentos constituyentes. Como consecuencia de estas observaciones, se propuso el
modelado segmental utilizando la duración silábica, sin considerar una isocronía silábica
i
estricta.
Los primeros algoritmos propuestos consideran que la duración segmental puede mo-
delarse como unafracción de la duración silábica. En consecuencia, cada segmento variará
en función de la duración suprasegmental, ajustándose todos los fonemas constituyentes
a la duración predicha de la sílaba. Sin embargo, la observación de la correlación entre
la duración de la sílaba y la duración segmental nos permitió determinar que en algunas
ocasiones pueden considerarse como fenómenos que no guardan una relación lineal entre
ellos. Teniendo en cuenta esto, en esta tesis también se propuso el modelado de la dura-
ción segmental de manera condicional, considerándola como una fracción de la duración
silábica, o bien en forma absoluta, independiente de la duración suprasegmental. Estos
algoritmos propuestos utilizan una extrapolación para el modelado de la duración del en-
foque planteado para el modelado de la entonación. La evaluación subjetiva sugiere que la
predicción de la duración segmental en base a la duración de la sílaba usando duraciones
relativas y absolutas alcanzan un MOS de naturalidad de 4,06 (4,59 para la voz original)
y un MOS de calidad de 4,25 (4,65 para la voz original).
Finalmente, también se realizó un análisis de diversos modelos de junturas terminales
usando tanto palabras como grupos acentuales: árboles de clasificación (CART), modelos
de lenguaje (LM) y transductores de estados finitos (FST). La utilización del mismo con-
junto de datos para los experimentos permitió obtener conclusiones relevantes sobre las
diferencias de los diferentes modelos. Los experimentos realizados revelan la ventaja de la
utilización de modelos de lenguaje a través de n-gramas (CART+LM) sobre el algoritmo
más simple que predice junturas usando solamente CART. Tanto en el modelado usando
palabras como grupos acentuales, CART+LMy FST resultaron superiores a la utilización
deárbolesdeclasificación enformaaislada.Además,entodosloscasosCART+LMresultó
superior a FST debido a la posibilidad de utilizar información contextual más compleja
a través de la probabilidad modelada con el árbol de clasificación, tales como etiquetas
morfosintácticas adyacentes y la distancia a signos de puntuación.
Uno de los objetivos de esta tesis era mejorar la naturalidad y expresividad de la
conversión texto a voz utilizando la prosodia del hablante fuente disponible en el proceso
de traducción voz a voz como información adicional. Por ello se han desarrollado una
serie de algoritmos para la generación de la prosodia que permiten la integración de la
información adicional en la predicción de la entonación, la duración de los fonemas y la
ubicación de junturas terminales.
Los diferentes modelos prosódicos de entonación, duración segmental y junturas ter-
minales desarrollados en la primeraparte dela tesis se adaptaron para incluir información
prosódica extraída del hablante fuente. El objeto era mejorar la generación de la prosodia
en la conversión texto a voz en el marco de la traducción voz a voz en aspectos tales como
naturalidad, expresividad y consistencia con el estilo del hablante fuente.
En ese sentido esta tesis exploró diferentes enfoques para la transferencia de la ento-
nación de un idioma a otro. Para ello se consideró la posibilidad de utilizar esquemas de
anotación existentes, tales como ToBI o INTSINT. De esta manera, una vez obtenida la
anotación deambos idiomas, sería posibleaplicar técnicas de aprendizajeautomático para
encontrar relaciones entre las anotaciones. Sin embargo, la conclusión fue que en este tipo
de esquemas de anotación de eventos tonales se realizan ciertas suposiciones, tales como
una discretización taxativa de los contornos, que pueden forzar el ajuste del fenómeno al
esquema de anotación, y no viceversa, que es lo deseado. Esto puede llevar a una ano-
ii
tación deficiente de los eventos tonales, y la utilización de esta información errónea solo
conduciría a resultados pobres en la transferencia de la entonación.
Porellosedecidiólautilizacióndeunenfoquedeagrupamientoautomáticoquepermita
encontrarunciertonúmerodetiposdemovimientostonalesrelacionadosenlosdosidiomas
sin utilizar ninguna suposición acerca de su número. De esta manera, es posible utilizar
esta codificación (obtenida luego del agrupamiento automático) de los contornos tonales
delidiomaorigen como característica adicional enel modeladodelaentonación delidioma
destino. Los resultados experimentales demostraron la mejora introducida en el modelado
de la entonación debido al enfoque propuesto, en comparación con un sistema base que
no utiliza la información de la codificación del contorno del idioma origen. La mejora es
importante en idiomas cercanos, tales como español y catalán. En el caso del español y el
inglés,los resultados fueronapenasligeramente mejores,debidoenpartealaraizdiferente
de los idiomas: latina y germánica respectivamente.
Si bien se decidió norealizar unatransferencia de la duración segmental entre idiomas,
en esta tesis se propuso transferir el ritmo del idioma origen al destino. Para ello se
propusounmétodoquecombinalatransferenciadelritmoylasincronizaciónentreaudios.
Este último aspecto fue considerado debido al uso de la tecnología de traducción voz a
voz en conjunción con video. Coordinar los aspectos gestuales con la voz traducida es
importante a causa de los múltiples canales involucrados en la comunicación humana. En
los experimentos se puedieron observar errores desincronización muy bajos, cercanos a los
150milisegundos,queconviertealenfoquepropuestoenaptoparasuusoensincronización
de audio/video.
Por último, en esta tesis también se propuso una técnica de transferencia de pausas
en el marco de la traducción voz a voz, mediante la utilización de información sobre
alineamiento. El estudio de los datos de entrenamiento utilizando dos tipos diferentes de
unidades de traducción, palabras y tuplas, arrojó como resultado la ventaja del uso de la
últimaparadichatarea.Latuplapermiteagruparessuinterior palabrasquepresentanun
ordenamientoentreidiomas.Enconsecuencia,esposibletransferirlaspausasdeunidioma
a otro cuando estas se encuentran en la frontera de las tuplas. Una limitación importante
de este enfoque es la imposibilidad para trasladar una pausa de una tupla de un idioma a
otro, si esta se encuentra dentro dela misma. Para compensar esta deficiencia el algoritmo
realiza una predicción de pausas adicionales utilizando algoritmos convencionales (CART,
CART+LM, FST), teniendo en cuenta las pausas ya predichas mediante la transferencia
de pausas entre idiomas.
iii
iv
Description:Page 1. Tesis Doctoral. Síntesis de voz aplicada a la traducción voz a voz. Pablo Daniel Agüero. Director de Tesis: Antonio Bonafonte Cávez.