Resumen de tesis doctoral: PLA, Ferran. 2000. Etiquetado Léxico y Análisis Sintáctico Superficial basado en Modelos Estadísticos. Universidad Politécnica de Valencia

Carlos Subirats subirats at ICSI.BERKELEY.EDU
Wed Apr 3 19:55:04 UTC 2002


INFOLING. Lista moderada de lingüística española (ISSN: 1576-3404)
España: http://listserv.rediris.es/archives/infoling.html
        http://www.rediris.es/list/info/infoling.html
EE.UU:  http://listserv.linguistlist.org/archives/infoling.html
ESTUDIOS DE LINGÜÍSTICA ESPAÑOLA http://elies.rediris.es
Envío de información: mailto:infoling-request at listserv.rediris.es
COMITÉ DE REDACCIÓN:
        http://elies.rediris.es/comite_de_redaccion.html
EDITORES:
        Carlos Subirats Rüggeberg ICSI <subirats at icsi.berkeley.edu>
        Mar Cruz Piñol, U. Barcelona <mcruz at fil.ub.es>
        Eulalia de Bobes Soler, UAB <Eulalia.deBobes at uab.es>
INFORMACIÓN SOBRE AMÉRICA LATINA:
        Alexandra Álvarez, U. de Los Andes <xandra at icnet.com.ve>
EQUIPO DE REDACCIÓN:
        Lídia Moya, UAB <Lidia.Moya at uab.es>
        Blanca Pascual, UAB <Blanca.Pascual at uab.es>
        Judit Torres, UAB <mjtorresh at seneca.uab.es>
____________________________________________________________________

                  Resumen de tesis doctoral:
   PLA, Ferran. 2000. Etiquetado Léxico y Análisis Sintáctico
Superficial basado en Modelos Estadísticos. Universidad Politécnica de
Valencia:  http://www.dsic.upv.es/~fpla/tesifpla.ps.gz
____________________________________________________________________

1. Autor:
   Ferran PLA

2. Título de la tesis:
   Etiquetado Léxico y Análisis Sintáctico Superficial basado en
   Modelos Estadísticos
   2.1 Número de páginas: 193
   2.2 Palabras clave: Procesamiento del lenguage natural,
       etiquetación léxica, análisis sintáctico, modelos
       estadísticos

3. Fecha de lectura:
   2000

4. Departamento, centro o laboratorio en el que se ha desarrollado
   la tesis:
   Departamento de Sistemas Informáticos y Computación
   Universidad Politécnica de Valencia (España)

5. Directores de la tesis:
   Natividad Prieto Sáez, Univ. Politécnica de Valencia
   Lluís Padró Cirera, Universidad Politécnica de Cataluña

6. Proyecto o línea de investigación en el que se incluye:



7. Resumen:

   En esta tesis, se abordan dos problemas que simplifican
substancialmente la tarea de procesamiento de oraciones escritas en
Lenguaje Natural:

   - la desambiguación léxica y
   - el análisis sintáctico superficial de textos no restringidos.

   Se ha desarrollado un sistema de desambiguación para textos no
restringidosque es capaz de obtener de manera conjunta o separada:

   - el etiquetado léxico (POS tagging) --o proceso mediante el cual
     se elige la categoría léxica correcta para las palabras de un
     frase--
   - el análisis sintáctico superficial (Shallow Parsing o Chunking)
     --consistente en la detección de ciertos grupos no solapados de
     palabras relacionadas sintácticamente como, sintagmas nominales
     (SN), verbales (SV), preposicionales(SP).

   La aproximación propuesta se basa en modelos de lenguaje (ML)
obtenidos automáticamente a  partir de corpora etiquetados con
información lingüística. Para ello, se utilizan técnicas de aprendizaje
automático derivadas del campo de la inferencia gramatical y de los
modelos estadísticos.

   Los modelos inferidos se representan utilizando un formalismo
homogéneo: máquinas de estados finitos. Éstos incluyen desde modelos de
n-gramas, hasta cualquier modelo regular estocástico aprendido por medio
de técnicas de inferencia gramatical u obtenido mediante cualquier otro
método. Para estos últimos se introducen nuevos métodos de suavizado
para ampliar la cobertura del leguaje. Además, el sistema ha sido
ampliado para enriquecer los ML con información de las palabras, además
de las categorías léxicas, mediante lo que hemos denominado modelos
contextuales especializados o lexicalizados. Éstos permiten reflejar
dependencias léxico-contextuales, que en muchos casos, ayudan de manera
notable a resolver ciertas ambigüedades estructurales.

   El sistema propuesto se ha evaluado experimentalmente sobre
diferentes corpora en inglés (Wall Street Journal) y en espacastellano
(LexEsp, BDGEO), estableciéndose comparaciones con aproximaciones
desarrolladas por otros investigadores. Se ha desarrollado un entorno
gráfico que permite una utilización muy sencilla, especialmente adecuada
para usuarios no expertos.

   Esta aplicación permite realizar de una forma amigable las tareas de
supervisión por lingüistas de las diferentes salidas del sistema:
etiquetado léxico y análisis sintáctico. Además, permite completar por
parte del usuario el análisis superficial obtenido de manera automática.


                         ÍNDICE GENERAL

1  Introducción
 1.1  Visión General
 1.2  Aportaciones
 1.3  Esquema de la Tesis

2  Desambiguación Léxica y Sintáctica de Textos
 2.1  Etiquetado Léxico de Textos
 2.2  Aproximaciones al Etiquetado Léxico de Textos
  2.2.1  Aproximaciones Lingüísticas
  2.2.2  Aproximaciones de Aprendizaje Automático
2.3  Evaluación de las Prestaciones de Etiquetado Léxico
2.4  Análisis Sintáctico
 2.4.1  Análisis Parcial y Análisis Superficial
 2.4.2  Medidas de Evaluación
2.5  Aproximaciones al Análisis Parcial y Superficial
 2.5.1  Aproximaciones Lingüísticas
 2.5.2  Aproximaciones de Aprendizaje Automático
2.6  Resultados sobre Análisis Superficial

3  Etiquetado Léxico basado en Modelos de Markov
 3.1  Introducción
 3.2  Formulación Probabilística del Problema de Etiquetado Léxico
  3.2.1  Algunas Simplificaciones al Problema de Etiquetado
  3.2.2  Modelos de Markov y Etiquetado Léxico
 3.3  Algoritmos de Etiquetado
  3.3.1  Algoritmo de Viterbi
 3.4  Estimación de las Probabilidades de un MM
  3.4.1  Métodos Supervisados
  3.4.2  Métodos No Supervisados
 3.5  Métodos de Suavizado en N-gramas
  3.5.1  Suavizado de las Probabilidades de Contexto
  3.5.2  Suavizado de las Probabilidades Léxicas
 3.6  Modelos Contextuales Especializados
  3.6.1  Formulación del Proceso de Especialización
 3.7  Resumen

4  Aprendizaje de Modelos Contextuales mediante IG
 4.1  Introducción
 4.2  Algoritmo ECGI
  4.2.1  Descripción y Propiedades del Algoritmo ECGI
 4.3  Modelos ECGI Extendidos (ECGIE)
 4.4  Suavizado de Modelos ECGI
  4.4.1  Interpolación Lineal (IL)
 4.4.2  Back-off (B)
 4.5  Evaluación Experimental de los Modelos Contextuales ECGIE
 4.6  Evaluación de los Modelos Especializados
 4.7  Resumen

5  Descripción y Evaluación del Sistema de Etiquetado Léxico
 5.1  Descripción del Sistema de Etiquetado
  5.1.1  Fase de Aprendizaje
  5.1.2  Fase de Etiquetado
 5.2  Descripción de los Corpora
  5.2.1  Wall Street Journal (WSJ)
  5.2.2  LexEsp
  5.2.3  BDGEO
 5.3  Evaluación del sistema de Etiquetado Léxico
  5.3.1  Evaluación sobre el Corpus WSJ
  5.3.2  Evaluación sobre el Corpus LexEsp
  5.3.3  Evaluación sobre el Corpus BDGEO
 5.4  Etiquetado Léxico usando Modelos Especializados
  5.4.1  Resultados sobre el Corpus WSJ
  5.4.2  Resultados sobre el Corpus LexESP
 5.5  Comparación Experimental de las Prestaciones de Etiquetado
 5.6  Resumen

6  Análisis Sintáctico Superficial
 6.1  Introducción
 6.2  Aproximación Unificada al Etiquetado y Análisis Superficial
 6.3  Formulación Probabilística del Problema
 6.4  Proceso de Decodificación: Etiquetado y Análisis Superficial
 6.5  Evaluación del Sistema Integrado
 6.6  Detección de NP sobre el WSJ
  6.6.1  Integración de Modelos de Bigramas (BIG)
  6.6.2  Integración de Modelos ECGI y BIG
 6.7  Detección de Unidades Sintácticas sobre WSJ
  6.7.1  Descripción de la Tarea
  6.7.2  Características de las Unidades Sintácticas
  6.7.3  Evaluación Experimental
  6.7.4  Comparación con otras Aproximaciones
 6.8  Detección de SN sobre LexEsp
 6.9  Resumen

7  Entorno Gráfico para la Desambigüación de Textos
 7.1  Funcionalidad de la Aplicación
  7.1.1  Edición de Etiquetas
  7.1.2  Edición de Gramáticas
  7.1.3  Visualización y Corrección del Etiquetado Léxico y el
         Análisis Sintáctico
  7.1.4  Evaluación de Prestaciones
 7.2  Ventajas de la Herramienta Gráfica

8  Conclusiones y Trabajos Futuros
 8.1  Conclusiones
 8.2  Trabajos Futuros
  8.2.1  Refinamiento de los Modelos
  8.2.2  Aplicaciones del Sistema Desarrollado

A  Conjunto de Categorías Léxicas
  A.1  Estructura Completa de las Categorías Léxicas PAROLE
  A.2  Categorías Léxicas PAROLE
  A.3  Categorías Penn Treebank

B  Corpus BDGEO
 B.1  Frases del Corpus BDGEO
 B.2  Etiquetas Completas

C  Palabras Especializadas en los Modelos Contextuales
 C.1  Sobre el Corpus WSJ
 C.2  Sobre el Corpus LexEsp


8. Dirección postal, fax o correo-e del autor:
   Ferran Pla <fpla at dsic.upv.es>
   Infomacion sobre la actividad de investigacion del autor:
   http://www.dsic.upv.es/~fpla/reserca.html
   Pagina personal del autor:
   http://www.dsic.upv.es/~fpla/


9. Posibilidad de obtener un ejemplar de la tesis:
   http://www.dsic.upv.es/~fpla/tesifpla.ps.gz

--------------------------------------------------------------------
                Nueva dirección de la web del:
"I Congreso Nacional sobre la Corrupción en la Universidad Pública
Española":
      http://www2.alcala.es/vivatacademia/n33/congreso.htm
--------------------------------------------------------------------
Infoling y Estudios de Lingüística Española http://elies.rediris.es
no recibe hi ha recibido ayuda financiera o becarios de la Universidad
Autónoma de Barcelona (España).
--------------------------------------------------------------------

----------------------------------------------------
Para darse de baja INFOLING pinche y envíe el siguiente url
mailto:infoling-signoff-request at listserv.rediris.es
----------------------------------------------------



More information about the Infoling mailing list