Corpora: PhD Thesis

Leonel Ruiz Miyares leonel at lingapli.ciges.inf.cu
Wed Mar 28 22:57:07 UTC 2001


Estimados colegas:

Recientemente se realizó la defensa del doctorado
titulado: DESARROLLO DE UN MODELO COMPUTACIONAL PARA
EL PROCESAMIENTO DE CORPUS TEXTUALES BASADO
EN LA ETIQUETACIÓN AUTOMÁTICA del autor
Leonel Ruiz Miyares del Centro de Lingüística Aplicada
del Ministerio de Ciencia, Tecnología y Medio Ambiente
de la Delegación Territorial de Santiago de Cuba,
Cuba.

El tutor fue el Dr. Jorge Díaz Silvera, del
Departamento de Computación de la Facultad de
Ciencias Naturales y Matemáticas de la Universidad
de Oriente de Santiago de Cuba.

En la tesis se realiza un análisis detallado
de la etiquetación automática de corpus textuales,
las diferentes vías de desambiguar las palabras con
posibilidad de tener más de una categoría gramatical,
según el contexto donde se encuentre, principalmente
sobre la base de la teoría probabilística de los
modelos ocultos de Markov.

La tesis describe la estructura, funcionamiento
y descripción del modelo computacional que propone
esta investigación, el cual se denomina ETIPROCT
(Etiquetador y Procesador de Corpus Textuales) y
describe sus dos secciones: la de la etiquetación
automática de los textos y la del procesamiento de
la información lingüística.

La aplicación del ETIPROCT a dos corpus textuales
completamente diferentes desde el punto de vista
lexical refleja la alta efectividad del sistema.

Se procesaron 358 textos escritos por alumnos
de secundaria básica de ocho provincias cubanas,
donde se obtuvo una efectividad de 98.15%.

Por su parte, se analizaron 131 textos de
la prensa escrita cubana y la efectividad
fue de un 97.16%.

Otra de las novedades del sistema que describe
esta tesis es la codificación automática de los
lapsogramas cometidos por los estudiantes en las
composiciones escritas.

El reconocimiento de palabras compuestas,
el enriquecimiento constante del lexicón,
la creación del aspecto semántico dentro
del mismo y la larga relación de resultados
linguoestadísticos, entre otros, son los aportes
más significativos del primer etiquetador gramatical
automático de corpus textuales creado en Cuba, objetivo
principal de esta tesis.


Centro de Lingüística Aplicada
Ministerio de Ciencia, Tecnología y Medio Ambiente
Santiago de Cuba
Cuba



More information about the Corpora mailing list