Resumen de tesis doctoral: Losada, L.J. 2003. Automatización del análisis sintáctico del español. Universidad de Las Palmas de Gran Canaria

Tue Apr 1 06:36:04 UTC 2003

                             INFOLING
 Lista de distribución de lingüística del español (ISSN: 1576-3404)
                  http://elies.rediris.es/infoling/
    Envío de información: infoling-request at listserv.rediris.es
                             EDITORES:
    Carlos Subirats Rüggeberg, UAB <subirats at icsi.berkeley.edu>
           Mar Cruz Piñol, U. Barcelona <mcruz at fil.ub.es>
        Eulalia de Bobes Soler, UAB <Eulalia.deBobes at uab.es>
 Equipo de edición: http://elies.rediris.es/infoling/editores.html
  "Estudios de Lingüística del Español": http://elies.rediris.es
es una red temática de lingüística del español asociada a Infoling.

------------------------------------------------------------------------
                           Resumen de tesis doctoral:
    Losada García, Luis J. 2003. Automatización del análisis sintáctico
    del español. Universidad de Las Palmas de Gran Canaria, Departamento
    de Informática y Sistemas.
------------------------------------------------------------------------

1. Autor:
    Losada García, Luis J.

2. Título de la tesis:
    Automatización del análisis sintáctico del español

3. Fecha de lectura:
    31 de enero de 2003

4. Departamento, centro o laboratorio en el que se ha desarrollado
    Grupo de Estructuras de Datos y Lingüística Computacional
    Departamento de Informática y Sistemas
    Universidad de Las Palmas de Gran Canaria
    Islas Canarias, España

5. Director
    Octavio Santana Suárez
    Codirector: José R. Pérez Aguiar

6. Proyecto o línea de investigación en el que se incluye
    - Análisis de estructuras de datos aplicadas a la recuperación
      asociativa de información
    - Procesamiento del lenguaje natural y la lingüística computacional

7. Resumen e índice

    La presente tesis se engloba en la línea de los trabajos realizados
por el Grupo de Estructuras de Datos y Lingüística Computacional de la
Universidad de Las Palmas de Gran Canaria (http://www.gedlc.ulpgc.es/)
durante los últimos años, en el ámbito de las aplicaciones orientadas a
la lingüística computacional. A partir de los trabajos de reconocimiento
y generación morfológica automáticos se pasa al siguiente nivel en el
campo de la lingüística: la sintaxis.

    En esta tesis se han logrado soluciones a los problemas que se
producen a la hora de realizar la automatización de la sintaxis.
Como resultado de los trabajos realizados se han desarrollado dos motores:

    - DeFuSE —Desambiguador Funcional de Sentencias del Español— y
    - AMoSinE —Analizador Morfo-Sintáctico del Español.

    DeFuSe se orienta a los procesos de desambiguación funcional
sirviendo como base para aplicaciones de niveles superiores. La
desambiguación funcional se ha desarrollado en función de un estudio de
las relaciones de vecindad en el seno de las estructuras básicas de la
gramática española —los sintagmas. Permite además la posibilidad de
tener en consideración o no las palabras antiguas o desusadas,
permitiendo su mejor adaptación a textos antiguos o actuales.

    AMoSinE se trata de un motor orientado al análisis de las
estructuras sintácticas de una sentencia, almacenando estas y
poniéndolas a disposición de otras aplicaciones.

    El motor se basa en una definición en forma de reglas simples de la
gramática española, las cuales son utilizadas durante el proceso de
generación de árboles de representación que son generados a través del
algoritmo de tipo chart árboles múltiples virtuales al que se le
incorporan una serie de mecanismos de poda a los que hemos denominado
desambiguación estructural. Este motor no parte de la sentencia en sí,
sino que utiliza los resultados de DeFuSe.

    En ambos casos se han desarrollado interfaces de usuario dando lugar
a dos aplicaciones finales.

                               Índice

Capítulo 1. Lingüística computacional y analizadores sintácticos.

1. Introducción histórica.
1.1. Introducción.
1.2. Historia de la lingüística computacional.
1.2.1. Antecedentes históricos.
1.2.2. Procesamiento del lenguaje natural desde 1966 hasta 1980.
1.2.3. Procesamiento del lenguaje natural desde 1980.
1.3. El español y la lingüística computacional.

2. Sintaxis y analizadores sintácticos.
2.1. Introducción.
2.2. Adecuación de los autómatas de estado finito para el procesamiento
sintáctico.
2.2.1. Introducción a los autómatas o redes de estado finito.
2.2.2. Ideas sobre adecuación.
2.2.3. Adecuación matemática y notacional.
2.2.4. Adecuación matemática de los autómatas de estado finito.
2.2.5. Adecuación notacional de los autómatas de estado finito.
2.2.6. Resumen.
2.3. Introducción a la terminología de sintaxis y las gramáticas libres
del contexto.
2.3.1. Limitaciones de los autómatas de estado finito.
2.3.2. Gramáticas libres del contexto.
2.3.3. Estructura de árbol.
2.3.4. Ambigüedad.
2.3.5. Categorías sintácticas.
2.4. Búsqueda y control en el análisis.
2.4.1. Estrategias de análisis.
2.4.2. Estrategia descendiente.
2.4.3. Estrategia ascendente.
2.4.4. Control de estrategias de análisis.
2.4.5. Control en profundidad.
2.4.6. Control en anchura.
2.4.7. Evaluación de los controles en profundidad y en anchura.
2.4.8. Algunas consideraciones en el análisis.
2.4.9. Resumen.

3. Formalismos gramaticales.
3.1. Introducción.
3.1.1. Gramáticas de unificación.
3.1.2. Tipos de gramáticas según su función.
3.1.3. Tendencias futuras de las gramáticas.
4. Evaluación de la eficiencia de los sistemas de análisis sintáctico
automatizado.

Capítulo 2. Resumen gramatical del español.

1. La sintaxis del español.
1.1. Introducción.
1.2. La oración o proposición.
1.3. La oración compuesta.
1.4. El sujeto.
1.5. El sintagma nominal.
1.5.1. El sintagma nominal homogéneo.
1.5.2. El sintagma nominal sustitutivo.
1.5.3. El sintagma nominal heterogéneo.
1.6. La proposición como sujeto.
1.7. El predicado.
1.7.1. El núcleo verbal.
1.7.2. El objeto directo.
1.7.3. El objeto indirecto.
1.7.4. El atributo.
1.7.5. El circunstancial.
1.7.6. El complemento agente.
1.7.7. El complemento predicativo.
1.7.8. El suplemento.
1.7.9. Las estructuras del predicado.
1.8. El vocativo.

2. Formalización estructural.
2.1. Resumen estructural de la gramática.
2.2. Reglas generadas.

Capítulo 3. Proceso de automatización del análisis sintáctico del español.

1. Introducción al proceso de análisis sintáctico.

2. Las ambigüedades funcionales en el proceso de análisis.
2.1. Introducción.
2.2. Las ambigüedades funcionales del español.
2.3. Estructuras sintácticas básicas y parejas funcionales.
2.3.1. Sintagma nominal homogéneo.
2.3.2. El sintagma nominal heterogéneo.
2.3.3. El sintagma nominal sustitutivo.
2.3.4. El verbo.
2.3.5. El sintagma preposicional.
2.3.6. El sintagma adjetivo.
2.3.7. El sintagma adverbial.
2.3.8. La unión entre distintas estructuras.
2.4. El proceso de desambigüación.
2.5. Reducción de alternativas por desambiguación funcional.
2.6. Estadísticas.
2.6.1. Estudio sobre ternas teóricas.
2.6.2. Estudio sobre texto real.
2.7. Conclusiones.

3. Generación de árboles de análisis.
3.1. Introducción.
3.2. Generación de representaciones.
3.2.1. Características del modelo.
3.2.2. Tablas de coberturas.
3.2.3. La predicción descendente: Derivabilidad y Adyacencia.
3.2.4. Enlaces entre sucesos.
3.2.5. Estados lógicos de los sucesos.
3.2.6. El algoritmo de análsis.
3.3. Tabla de adyacencias para la gramática española considerada.
3.4. Problemas durante el proceso de análisis sintáctico. Las ambigüedades.

4. Las ambigüedades estructurales de la gramática.
4.1. Introducción.
4.2. Resolución.
4.2.1. La relación entre las palabras y los complementos que forman.
4.2.1.1. Los sintagmas preposicionales.
4.2.1.2. Los sintagmas nominales sustitutivos.
4.2.2. Las ambigüedades y los símbolos relacionados.
4.2.3. Las ambigüedades y los símbolos incompatibles.
4.2.4. Las concordancias.
4.2.5. Información ideológica.
4.2.5.1. Relaciones ideológicas y símbolos.
4.2.5.2. Relaciones ideológicas entre símbolos.
4.2.6. Símbolos que no pueden cubrir toda la oración.
4.2.7. Otras consideraciones.
4.2.7.1. Casos especiales: doble objeto directo.
4.2.7.2. Casos especiales: el verbo auxliar "haber".
4.2.7.3. Casos especiales: la forma verbal compleja.
4.2.7.4. Eliminación de opciones según la posición de los presentadores.
4.2.7.5. Otros casos.
4.2.8. Consideraciones adicionales para la generación del símbolo predicado.
4.3. Resumen de aplicación de reglas.
4.4. Los grupos y las reglas.
4.5. Ambigüedades reales.
4.6. Resultados estadísticos.

5. Integración de los procesos de desambiguación en el algoritmo de
análisis.
5.1. Introducción.
5.2. La desambiguación funcional.
5.3. La desambiguación estructural.
5.3.1. Mejoras con el uso de las reglas de desambiguación antes de la
generación.

Capítulo 4. Aplicaciones desarrolladas.

1. Introducción.

2. Desambiguador Funcional de Sentencias del Español: DeFunSE.
2.1. Introducción.
2.2. Interfaz.

3. Analizador Morfo-Sintáctico del Español: AMoSinE.
3.1. Introducción.
3.2. Interfaz.
3.2.1. Análisis sintáctico.
3.2.2. Desambiguación funcional.
3.2.3. Análisis morfológico.
3.2.4. Opciones del análisis.
3.2.5. Restricciones por frecuencia.

Conclusiones.

Apendice A. Índice de figuras.
Apendice B. Índice de tablas.
Bibliografía.

8. Correo-e del autor
    <losada at dis.ulpgc.es>

9. Cómo obtener la tesis
    De próxima publicación en la red. Ponerse en contacto con el autor

                             Más información:
       http://www.gedlc.ulpgc.es/docencia/doctorado/teslosada.html

----------------------------------------------------------------------
Utiliza el buscador de Estudios de Lingüística del Español (ELiEs) en
http://elies.rediris.es para realizar búsquedas en los contenidos de la
web de ELiEs.
----------------------------------------------------------------------