Proyecto de investigación: Análisis léxico y sintáctico automáticos

Carlos Subirats Rüggeberg Carlos.Subirats at uab.es
Thu Apr 16 16:08:21 UTC 1998


INFOLING  Lista moderada de lingüística española
http://listserv.rediris.es/archives/infoling.html
Envío de información: INFOLING at listserv.rediris.es
Consultas: INFOLING-request at listserv.rediris.es
Editor: Carlos Subirats Rüggeberg <Carlos.Subirats at uab.es>
Colaboradoras:
Paola Bentivoglio <pbentivo at reacciun.ve>, UCV
Eulalia de Bobes <ebobes at seneca.uab.es>, UAB
Mar Cruz <mcruz at lingua.fil.ub.es>, UB
Emma Martinell <martinell at lingua.fil.ub.es>, UB
_____________________________________________________

               Proyecto de investigación:
Análisis léxico y sintáctico automáticos de la lengua
española
                http://cc.uab.es/~ilfe1
_____________________________________________________

1. Título del proyecto:
Análisis léxico y sintáctico automáticos de la lengua
española

2. Período de duración: 1996/99

3. Investigador principal:
Carlos Subirats Rüggeberg <Carlos.Subirats at uab.es>

4. Entidad que financia el proyecto:
Ministerio de Educación y Ciencia, España
(Proyecto del Plan Nacional de Tecnología de la Información
y de las Comunicaciones, TIC96-804)

5. Miembros del equipo de investigación:
Eulalia de Bobes, Becaria FPI <ebobes at seneca.uab.es>
Sebastián Galera, Servicios Informáticos, UAB
     <Sebastian.Galera at uab.es>
Marc Ortega, Ingeniero en Informática <INV2 at chevere.uab.es>
Antonio Ríos, Facultad de Traducción e Interpretación
     <mestre at liceu.uab.es>
Jordi Valls, Facultad de Ingeniería Informática, UAB
     <INV3 at chevere.uab.es>

6. Laboratorio en el que se está desarrollando:
Laboratorio de Lingüística Informática (LaLI)
Universidad Autónoma de Barcelona

7. Resumen:
    Este proyecto de investigación está centrado en el
desarrollo de aplicaciones destinadas al tratamiento
automático de la información textual y a la extracción
automática de información de grandes corpus en lengua
española, partiendo de la utilización de bases de
conocimiento léxico y sintáctico.

    La base de conocimiento léxico (BCL) está integrada por
un diccionario electrónico de 600,000 formas, que integra
todas las formas posibles pertenecientes al léxico general
de la lengua española. La BCL se expande automáticamente a
partir de un diccionario de formas canónicas, que está
integrado por 92,000 entradas:

    - 66,000 formas simples, es decir, cadenas de
caracteres entre dos espacios en blanco;
    - 26,000 formas compuestas o locuciones, es decir, los
elementos léxicos formados por más de una forma simple.

Cada una de las formas que integran la BCL va acompañada de
un conjunto de códigos y especificaciones léxicas, que
indican:

    - la forma canónica o lema al que está asociado (en el
caso de las clases de palabras que no admiten flexión, como
p. ej., los adverbios, las conjunciones, etc., la forma
canónica coincide con la entrada de la BCL);
    - la clase de palabras a la que pertenece la forma de
la BCL ;
    - las propiedades flexivas tiempo, modo, persona y
número en el caso de los verbos, y las de género y/o número
en el caso de los nombres y adjetivos.

    El primer proceso al que se someten los textos es la
etiquetación, que consiste en:

    - la identificación automática de todas sus formas
simples y compuestas;
    - la asignación de sus propiedades flexivas y/o
categoriales;
    - la especificación de sus posibles ambigüedades.

El resultado de la etiquetación se formaliza en un autómata
que se puede visualizar mediante una aplicación gráfica.

    Una gran parte de las ambigüedades que genera el
proceso de etiquetación se eliminan posteriormente,
intersectando el autómata que crea el etiquetador con
transductores, que formalizan restricciones léxicas
locales.  Tras este proceso de desambiguación es posible
identificar construcciones sintácticas con gramáticas en
forma de transductores, lo cual permite procesar la
información textual.

    En el marco de este proyecto se está desarrollando una
Base de Conocimiento Sintáctico (BCS), que consiste en una
representación en forma de transductores de las propiedades
de dependencia y de las propiedades transformacionales de
los predicados del léxico del español. El objetivo de la
BCS es formalizar las características sintácticas de las
construcciones que permiten vehicular la información en
español y, a su vez, desarrollar una base de conocimiento
que permita mejorar el proceso de extracción automático de
la información textual.

Más información en la última publicación sobre el proyecto:

      http://cc.uab.es/~ilfe1/estado_actual.zip

8. Dirección postal y teléfono:
Laboratorio de Lingüística Informática
Universidad Autónoma de Barcelona
Facultad de Letras, Edificio B
08193 Bellaterra, ESPAÑA
Fax: + 34-93-581-16-86
Tel: + 34-93-581-22-29

----------------------------------------------------
Formatos para enviar informacion a INFOLING.
Enviar a LISTSERV at LISTSERV.REDIRIS.ES
la orden:	INFO INFOLING
----------------------------------------------------




More information about the Infoling mailing list