Resumen de tesis doctoral: MONTERO, J. M. Estrategias para la mejora de la naturalidad y la incorporaci ón de variedad emocional a la conversión texto a voz en castellano. Universidad Politécnica, Madrid (España)

Thu Sep 8 11:01:48 UTC 2005

--------------------------   INFOLING   ------------------------------
 Lista de distribución de lingüística del español (ISSN: 1576-3404)
                  http://elies.rediris.es/infoling/
    Envío de información: infoling-request at listserv.rediris.es
                             EDITORES:
       Carlos Subirats Rüggeberg, UAB <carlos.subirats at uab.es>
           Mar Cruz Piñol, U. Barcelona <mcruz at ub.edu>
        Eulalia de Bobes Soler, UAB <Eulalia.deBobes at uab.es>
 Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüística del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.
----------------------------------------------------------------------

Infoling y ELiEs se editan con el patrocinio del Ministerio de
Ciencia y Tecnología de España (DIF2003-10302-E): http://www.mcyt.es
                       Copyright Infoling

-------------------------------------------------------------------------
                      Resumen de tesis doctoral:
    MONTERO MARTÍNEZ, Juan Manuel. 2003. Estrategias para la mejora de
la naturalidad y la incorporación de variedad emocional a la conversión
texto a voz en castellano. Tesis doctoral, Departamento de Ingeniería
Electrónica, Escuela Técnica Superior de Ingenieros de Telecomunicación,
Universidad Politécnica, Madrid (España)
                          Acceso a la tesis:
     http://lorien.die.upm.es/~juancho/tesis/tesisJuancho2003.htm
-------------------------------------------------------------------------

1. Autor:
    MONTERO MARTÍNEZ, Juan Manuel

2. Título de la tesis:
    Estrategias para la mejora de la naturalidad y la incorporación de
    variedad emocional a la conversión texto a voz en castellano

    2.1 Número de páginas: 195
    2.2 Palabras clave: etiquetado léxico automático (POS tagging),
        análisis sintáctico automático (basado en reglas), modelado
        automático de prosodia, conversión texto habla con emociones

3. Fecha de lectura: 14 de noviembre de 2003

4. Departamento, centro o laboratorio en el que se ha desarrollado:
    Departamento de Ingeniería Electrónica
    Escuela Técnica Superior de Ingenieros de Telecomunicación
    Universidad Politécnica, Madrid (España)

5. Director: Prof. José Manuel Pardo Muñoz

6. Proyecto o línea de investigación en el que se incluye:
    Tecnología del habla

7. Resumen:

    En esta Tesis se abordan tres subproblemas relacionados con la
variedad y la naturalidad en la conversión texto habla en español:

    - el procesado lingüístico orientado a prosodia,
    - el modelado de la frecuencia fundamental en un dominio restringido
      y
    - el análisis, modelado y conversión texto a voz con emociones.

    En el capítulo dedicado a las investigaciones en procesado
lingüístico del texto, se comienza describiendo en detalle los corpora
empleados en la experimentación, tanto en normalización como en
etiquetado. La técnica desarrollada en normalización emplea reglas de
experto, con muy buenos resultados tanto en precisión como en cobertura,
destacando el empleo de reglas de silabicación para la detección precisa
de palabras extranjeras. Al afrontar la desambiguación gramatical, se
comparan tres técnicas:

    - reglas de experto,
    - aprendizaje automático de reglas y
    - modelado estocástico,

obteniéndose los mejores resultados con esta última técnica,  debido a
su capacidad de procesar más adecuadamente textos fuera del dominio de
entrenamiento.

     Finalmente se aborda el análisis sintáctico por medio de gramática
de contexto libre como un proceso en dos fases:, una primera
sintagmática y una segunda relacional básica, a fin de maximizar la
cobertura del análisis. Para la resolución de las ambigüedades que nos
permiten alcanzar gran cobertura se adapta el principio de mínima
longitud de descripción con notables resultados. Las gramáticas
desarrolladas se encuentran comentadas y ejemplificadas en un apéndice.

    Para el modelado de F0 en un dominio restringido se emplean
perceptrones multicapa. En una primera etapa se describe y evalúa una
nueva técnica de diseño de base de datos basada en un algoritmo voraz
moderado mediante subobjetivos intermedios. La exhaustiva
experimentación con los diversos parámetros de predicción, la
configuración de la red y las subdivisiones de la base de datos ocupa la
mayor parte del capítulo, destacando la aportación de un parámetro
específico del dominio restringido (el número de la frase portadora del
texto que sintetizar) junto a otros más clásicos (acentuación, tipo de
grupo fónico y posición en el mismo).

    El capítulo dedicado a la voz emotiva comienza detallando el proceso
de creación de una nueva voz castellana masculina en síntesis por
formantes con modelo mejorado de fuente (reglas y metodología),
evaluando las posibilidades de personalización de voz que ofrece. Para
trabajar con voz con emociones se diseña, graba y etiqueta una base de
datos de voz en la que un actor simula tristeza, alegría, sorpresa,
enfado y también una voz neutra. Por medio de técnicas paramétricas
(modelo de picos y valles en tono, y multiplicativo en las duraciones)
se analiza prosódicamente la base de datos y se establece una primera
caracterización de la voz en las distintas emociones. Empleando como
base la voz personalizable se desarrolla el sistema completo de
conversión texto a voz con emociones y se evalúa, destacando la rápida
adaptación de los usuarios en cuanto a la identificación de la emoción
expresada. Finalmente se experimenta con síntesis por concatenación y
síntesis por copia, llegando a las siguientes conclusiones: la voz
sorprendida se identifica prosódicamente, las características
segmentales son las que caracterizan al enfado en frío; y, finalmente,
la tristeza y la alegría son de naturaleza mixta.

                                Indice

                 Introducción

            1.1 Objetivos de la Tesis
            1.1.1  Procesado lingüístico automático
            1.1.2  Modelado de la F0 para síntesis en dominio
                   restringido
            1.1.3  Análisis y síntesis de habla con emociones
            1.2  Contenido de la Tesis

            Capítulo 2. Estado de la cuestión

            Capítulo 3. Procesado lingüístico automático
            3.1  Introducción
            3.2  Etiquetado morfosintáctico automático
            3.2.1  Corpora empleados
            3.2.1.1  El corpus de El Mundo
            3.2.1.2  El corpus 860
            3.2.2  Modelado léxico
            3.2.2.1  Normalizador
            3.2.2.2  Diccionarios
            3.2.2.3  Conjugador verbal
            3.2.2.4  Reglas léxicas externas o de terminaciones
            3.2.2.5  Cobertura léxica
            3.2.3  Desambiguación contextual
            3.2.3.1  Creación de reglas manuales contextuales
            3.2.3.2  Aprendizaje automático de reglas
            3.2.3.3  Desambiguación contextual estocástica
            3.2.4    Conclusiones sobre etiquetado automático
            3.3  Análisis sintáctico automático y robusto
            3.3.1  Análisis sintáctico
            3.3.2  El algoritmo CYK
            3.3.2.1  Recuperación de todos los análisis correctos
            3.3.3  Texto categorizado y reglas léxicas
            3.3.4  Análisis sintagmático y reglas de corte
            3.3.4.1  Resultados
            3.3.5  Reglas gramaticales sintagmáticas
            3.3.5.1  Principales segmentos (sintagmas simples)
            3.3.5.2  Secuencia de segmentos (sintagmas simples)
            3.3.5.3  Filtros de concordancia
            3.3.5.4  Principio de mínima longitud de la descripción
            3.3.5.5  Evaluación
            3.3.5.6  Recategorización
            3.3.6  Reglas gramaticales de segundo nivel
                  (sintácticas)
            3.3.6.1  Evaluación
            3.3.7  Conclusiones sobre análisis sintáctico

            Capítulo 4  Modelado de la F0 para síntesis en dominio
                        restringido
            4.1  Diseño de la base de datos de dominio restringido
            4.2  Grabación y etiquetado de la base de datos
            4.3  Análisis y parametrización
            4.4  Condiciones generales de experimentación para el
                 modelado de F0 mediante redes neuronales artificiales

            4.5  Experimentos sobre nombres propios en enunciativas
            4.6  Experimentos sobre frases interrogativas
            4.7  Experimentos sobre frases enunciativas con
                 sintagmas nominales largos
            4.8  Experimentos con las frases especiales
            4.9  Experimento global conjunto con todas las frases
            4.10  Conclusiones sobre el modelado de F0 en dominio
                  restringido

            Capítulo 5.  Análisis y síntesis de habla con emociones
            5.1  Desarrollo de una nueva voz personalizable
                 mediante síntesis por formantes
            5.2  Evaluación de la voz personalizada y del proceso
                 de personalización
            5.3  La base de datos SES: Spanish Emotional Speech
            5.4  Evaluación del habla con emociones empleando
                 síntesis por formantes
            5.5  Conclusiones sobre síntesis de voz con emociones
                 mediante síntesis por formantes
            5.6  Experimentos de síntesis-por-copia y voz con emociones

            Capítulo 6. Conclusiones y líneas futuras
            6.1  Conclusiones
            6.2  Líneas futuras

            Referencias
            Apéndices
            A.1  Procesado lingüístico automático
            A.1.1  Etiquetado del 860
            A.1.2  Lista de paradigmas irregulares empleados
            A.1.3  Patrones del experimento de aprendizaje de
                   reglas de categorización
            A.1.4  Conjuntos de etiquetas del experimento de
                   aprendizaje de reglas de categorización
            A.1.5  Tablas de resultados de los experimentos sobre
                   etiquetado estocástico
            A.1.6  Reglas léxicas de preprocesamiento para el
                   análisis sintáctico
            A.1.7  Gramáticas de contexto libre empleadas
            A.1.8  Gramática de primer nivel
            A.1.9  Gramática de segundo nivel
            A.2    Modelado de F0 en dominio restringido
            A.2.1  Frases patrón iniciales de la base de datos de
                   dominio restringido
            A.2.2  Frases patrón definitivas de la base de datos
                   de dominio restringido
            A.2.3  Análisis estadístico del modelado de F0
                   parámetro a parámetro
            A.2.4  Análisis de F0 con un modelo paramétrico en
                   dominio restringido
            A.3    Análisis y síntesis de habla con emociones
            A.3.1  Personalización de voz
            A.3.2  Ejemplo de cuestionario para la evaluación de
                   síntesis de voz con emociones
            A.3.3  Textos de la base de datos SES
            A.3.4  Cuestionario de evaluación de voz emotiva en el
                   proyecto VAESS
            A.3.5  Cuestionario sobre la personalización de voz
            A.3.6  Definición de rasgos simples y complejos para
                   la voz personalizada o con emociones
            A.3.7  Reglas segmentales y de entonación para el
                   castellano (para personalización y para emociones)

8. Correo-e del autor: <juancho at die.upm.es>

9. Cómo obtener la tesis:
    http://lorien.die.upm.es/~juancho/tesis/tesisJuancho2003.htm

----------------------------------------------------------------------
Utiliza el buscador de Infoling en http://elies.rediris.es/infoling/
para realizar búsquedas en los mensajes enviados a la lista desde 1998.
----------------------------------------------------------------------