Resumen de tesis doctoral: Ruiz Miyares, Leonel. 2001. Desarollo de un modelo computacional para el procesamiento de corpus textuales basado en la etiquetación automática

Wed Apr 4 15:57:31 UTC 2001

INFOLING. Lista moderada de lingüística española (ISSN: 1576-3404)
España: http://www.rediris.es/list/info/infoling.html
EE.UU:  http://listserv.linguistlist.org/archives/infoling.html
ESTUDIOS DE LINGÜÍSTICA ESPAÑOLA http://elies.rediris.es
Envío de información: mailto:infoling-request at listserv.rediris.es
                            Editores:
Eulalia de Bobes Soler, UAB, mailto:eulalia.debobes at uab.es
Carlos Subirats Rüggeberg, UAB, mailto:carlos.subirats at uab.es
Mar Cruz Piñol, UB, mailto:mcruz at fil.ub.es
                 Información sobre cursos y congresos:
Laura Canós, mailto:laura_canos at ono.com
Lídia Moya, UAB, mailto:lidia.moya at uab.es
Blanca Pascual, UAB, mailto:blanca.pascual at uab.es
Comité de redacción: http://elies.rediris.es/#Comite_de_redaccion
____________________________________________________________________
Star Servicios Lingüísticos patrocinador de Infoling y ELiEs. Nuevas
tecnologías aplicadas a la traducción y la terminología multilingüe.
Especialistas en la traducción de documentación técnica al español:
http://www.star-group.net/star-group/stbar/principal.html
____________________________________________________________________
                   Resumen de tesis doctoral:
Ruiz Miyares, Leonel. 2001. Desarollo de un modelo computacional
para el procesamiento de corpus textuales basado en la etiquetación
automática. Universidad de Oriente, Santiago de Cuba (Cuba)

  De: Leonel Ruiz Miyares, mailto:leonel at lingapli.ciges.inf.cu
____________________________________________________________________

Autor: Leonel Ruiz Miyares

Título de la tesis: Desarollo de un modelo computacional para el
procesamiento de corpus textuales basado en la etiquetación automática.

Número de páginas: 125

Palabras clave: etiquetación automática, etiquetadores probabilísticos,
Modelos ocultos de Markov, corpus textual.

Fecha de lectura: Domingo, 21 de enero del 2001

Departamento, centro o laboratorio en el que se ha desarrollado la
tesis: Departamento de Computación de la Facultad de Ciencias Naturales
y Matemáticas de la Universidad de Oriente, Santiago de Cuba (Cuba)

Director de la tesis: Dr. Jorge Díaz Silvera

Proyecto o línea de investigación en el que se incluye: Etiquetación
automática de corpus textuales

Resumen:

En la tesis se realiza un análisis detallado de la etiquetación
automática de corpus textuales, las diferentes vías de desambiguar las
palabras con posibilidad de tener más de una categoría gramatical, según
el contexto donde se encuentre, principalmente sobre la base de la
teoría probabilística de los modelos ocultos de Markov.

La tesis describe la estructura, funcionamiento y descripción del modelo
computacional que propone esta investigación, el cual se denomina
ETIPROCT (Etiquetador y Procesador de Corpus Textuales) y describe sus
dos secciones: la de la etiquetación automática de los textos y la del
procesamiento de la información lingüística.

La aplicación del ETIPROCT a dos corpus textuales completamente
diferentes desde el punto de vista lexical refleja la alta efectividad
del sistema.

Se procesaron 358 textos escritos por alumnos de secundaria básica de
ocho provincias cubanas, donde se obtuvo una efectividad de 98.15%.

Por su parte, se analizaron 131 textos de la prensa escrita cubana y la
efectividad fue de un 97.16%.

Otra de las novedades del sistema que describe esta tesis es la
codificación automática de los lapsogramas cometidos por los estudiantes
en las composiciones escritas.

El reconocimiento de palabras compuestas, el enriquecimiento constante
del lexicón, la creación del aspecto semántico dentro del mismo y la
larga relación de resultados linguoestadísticos, entre otros, son los
aportes más significativos del primer etiquetador gramatical automático
de corpus textuales creado en Cuba, objetivo principal de esta tesis.

Dirección postal, fax o correo-e del autor:
  Calle 8 Nr. 206
  entre 7 y 9, Vista Alegre.
  Santiago de Cuba (Cuba)
  Fax: 53-226-687249
  Correo-e: leonel at lingapli.ciges.inf.cu

Posibilidad de obtener un ejemplar de la tesis: La tesis está en proceso
de publicación, por lo que en breve tiempo se dispondrá de algunos
ejemplares para distribuir.

----------------------------------------------------
Estudios de Lingüística Española http://elies.rediris.es
------------------------------------------------------