Información sobre tesis doctoral: Aurora Martín. 1994. Una propuesta de codificación morfosintáctica para corpus de referencia en lengua española.

Carlos Subirats Rüggeberg Carlos.Subirats at uab.es
Wed Nov 4 12:46:25 UTC 1998


INFOLING  Lista moderada de lingüística española
http://listserv.rediris.es/archives/infoling.html
Envío de información: INFOLING at listserv.rediris.es
Editor: Carlos Subirats Rüggeberg <Carlos.Subirats at uab.es>
Colaboradoras:
Paola Bentivoglio <pbentivo at reacciun.ve>, UCV
Eulalia de Bobes <ebobes at seneca.uab.es>, UAB
Mar Cruz <mcruz at lingua.fil.ub.es>, UB
Emma Martinell <martinell at lingua.fil.ub.es>, UB
____________________________________________________________

             Información sobre tesis doctoral:
    Aurora Martín de Santa Olalla. 1994. Una propuesta de
codificación morfosintáctica para corpus de referencia en
lengua española.
               Información proporcionada por:
      Aurora Martín de Santa Olalla <auroraso at uax.es>
____________________________________________________________

1. Autora:
   Aurora Martín de Santa Olalla

2. Título de la tesis:
   Una propuesta de codificación morfosintáctica para
   corpus de referencia en lengua española

3.  Fecha de lectura:
    24 de junio de 1994

4.  Departamento, centro o laboratorio en el que se
    ha desarrollado la tesis:
    Departamento de Lógica, Lingüística, Lenguas Modernas
    y Filosofía de la Ciencia
    Facultad de Filosofía y Letras
    Universidad Autónoma de Madrid, España

5.  Director de la tesis:
    Francisco Marcos Marín

6.  Proyecto o línea de investigación en la que se
    incluye:
    Lingüística de corpus: creación y codificación de
    corpus de referencia en lengua española

7.  Resumen:

    Este trabajo presenta una propuesta de codificación
morfosintáctica para corpus de referencia en lengua
española, basada en los estándares de la:

    - Text Encoding Initiative (TEI),
    - The Network of European Reference Corpora (NERC) y
    - The Expert Advisory Group on Language Engineering
      Standards (EAGLES).

    Nuestra propuesta de codificación morfosintáctica para
corpus de referencia en lengua española  consiste en la
creación de un sistema taxonómico, que toma como unidad
de análisis la palabra ('conjunto de signos entre dos
espacios en blanco') y describe todos aquellos rasgos que
presentan una marca formal explícita que supone, ademas,
un comportamiento gramatical específico.

    Nuestro trabajo contiene además un 'manual del
codificador', que caracteriza y describe cada una de las
clases ('categorías gramaticales' o 'partes de la
oración', en nuestro caso).

    El punto de partida lo constituyen las propuestas de
estandarización para las lenguas europeas: TEI (Langedoen
y otros, 1991), (Simons, 1991), (TEI-AI-1W2, 1991) y
(TEIP3, 1994); NERC (Monachini y otros, 1992) y EAGLES
(Leech y otros, 1994).

    TEI se ocupa tanto del contenido como de la forma en
el intento de de estandarización de un codificación
morfosintáctica.

    NERC solo ha tenido en cuenta hasta el momento la
definición de contenidos.

    El documento EAGLES, junto al tratamiento de las
formas y los contenidos morfosintácticos propone distintos
niveles de estandarización en los que se incluyen, aparte
de los rasgos exclusivamente morfosintácticos (con sus
respectivos valores), ciertos rasgos opcionales de
carácter léxico o léxico-semántico separados en dos
grupos:
    - aquellos que son específicos de  ciertos trabajos o
aplicaciones y
    - aquellos que son específicos de ciertas lenguas.

    Lo más original de este trabajo, en lo concerniente
a estandarización, está representado por la propuesta
de un nivel intermedio de codificación basado en códigos
numéricos, en el que los distintos rasgos tienen
posiciones fijas en una matriz, que es distinta para cada
una de las categorías. Esta  codificación tiene carácter
interlingüístico y constituye un paso intermedio para la
codificación de los corpus a partir de la información
registrada en un lexicón.

    Las tres propuestas coinciden en la formalización del
análisis morfosintáctico mediante un  sistema de pares
atributo-valor, que se representa por medio de etiquetas o
membretes. Las etiquetas o membretes tienen una estructura
atómica o jerarquizada que, junto a la pertenencia de las
palabras a clases ('categorías') y subclases ('tipos'),
refleja rasgos recurrentes y específicos de las distintas
formas.

    Como resultado de la aplicación de estos estándares a
la descripción morfosintáctica de la lengua española,
nuestro conjunto de membretes consta de 660 etiquetas
morfosintácticas o 'entidades de segundo orden', que
son el resultado de la combinatoria de 117 pares
atributo-valor o 'entidades  de primer orden'.

    Llamamos 'entidades de primer orden' a los pares
atributo valor morfosintácticos. Ellas constituyen la
base de nuestra propuesta. 'Entidades de segundo orden'
son las estructuras de rasgos formadas a partir de todas
las posibilidades de combinatoria de entidades de primer
orden, que ofrecen las unidades textuales en un corpus de
referencia en lengua española. Por ejemplo, C-N (categoría
nombre); E-4 (propio-si); E-5 (propio-no); G-M
(genero-masculino); G-F (genero-femenino); N-S
(numero-singular); N-P (numero-plural) son todas ellas
'entidades de primer orden' para la categoría nombre.
N4MS, N4FS, N4MP, N4FP, N5MS, N5FS, N5FP, N5MP y N5FP son
todas 'entidades de segundo orden', que reflejan el
análisis morfosintáctico de algunas de las formas que
puede adoptar la categoría nombre en español.

    Las principales clases coinciden básicamente con las
'partes de la oración' tradicionales, a las que se añaden
una clase 'residual', una clase 'única' y una clase
'puntuación'.

    Asignamos la categoría 'residual' a todas aquellas
unidades textuales que quedan fuera de las categorías
gramaticales tradicionalmente aceptadas y de lo que se
consideraría un léxico del español. Su aparición en los
corpus es relativamente frecuente y deben ser codificadas.
Por  ejemplo: palabras extranjeras, formulas matemáticas,
etc.

    Utilizamos la categoría 'única' para dar cuenta de la
codificación de una palabra (o un conjunto reducido de
palabras) con un comportamiento específico, que la o las
hace difícilmente adscribible a algunas de las categorías
restantes. Por ejemplo, utilizamos la categoría 'única'
para codificar el comportamiento del que comparativo en
español.

    Codificaremos con la etiqueta 'puntuación' todos
aquellos signos gráficos que:

a. indican límites entre los distintos constituyentes
   tanto en el marco de la oración simple como en el
   de la compuesta o en el discurso.
b. sirven para transcribir distintas entonaciones de
   un enunciado.

    Los atributos codificados en cada clase son los rasgos
morfosintácticos específicos de cada clase o categoría
gramatical:

- 'propio', 'género' y 'número' para el nombre.
- 'persona', 'género', 'número', 'caso' y 'reflexivo'
   para el pronombre personal.
- 'forma verbal', 'modo', 'tiempo', 'voz' y 'auxiliar'
   para el verbo.

    Los valores son los correspondientes a los distintos
rasgos morfosintácticos ('masculino', 'femenino' y
'neutro' para el genero; 'singular' y 'plural' para el
número; 'primera', 'segunda' y  'tercera' para la
persona,...) mas dos valores para subespecificación
('invariante o cualquiera' y  'no-aplicable') y dos
valores booleanos Y y O.

    Utilizamos:

    - 'invariante o cualquiera' cuando el rasgo no esta
formalmente marcado y puede tomar cualquiera de los
valores de la escala del rasgo. Es un rasgo, sin embargo,
que determina un comportamiento morfosintáctico
especifico. No es posible la desambiguación mediante
contexto. Por ejemplo, este es el valor para el rasgo
'número' en palabras como 'crisis', 'chasis' y 'martes'.

    - 'No-aplicable', cuando el rasgo no es relevante para
la palabra que se codifica, pero sí lo es en la clase o
subclase a la que esta pertenece.

    - 'No relevante' significa que es un rasgo no marcado
formalmente, que (y esto es lo que lo diferencia de
'invariante') no determina un comportamiento
morfosintáctico peculiar. La codificación de este rasgo en
una palabra supondría su adscripción a una clase distinta.
Por ejemplo, en los adverbios sin significado léxico (los
llamados pronominales).

    La codificación de un valor 'no-aplicable' para el
rasgo grado se podría interpretar como la necesidad de
establecer una subclase distinta, en la que el rasgo grado
no fuera un rasgo pertinente. Por ejemplo, este es el
valor para la concordancia en los participios de las
formas compuestas de los verbos o, como acabamos de ver,
el del rasgo grado para los adverbios pronominales ('tal
vez', 'quizás', 'ayer', etc.).

    O:
    - alternancia en una única forma de un subconjunto
valores de entre los definidos para ese rasgo. Obsérvese
que la diferencia respecto a lo que llamamos 'invariante o
cualquiera' es que, en este último caso, la alternancia
se daba entre todos los valores posibles para un rasgo.
En el caso de los operadores booleanos, la alternancia se
da únicamente entre un subconjunto de los posibles.
Por ejemplo, M|F es el valor del rasgo género en los
pronombres personales 'yo', 'me', 'se', etc.

    Y:
    - Conjunción en una única forma de un subconjunto de
valores de entre los definidos para un rasgo. Utilizamos
esta doble posibilidad de asignación de valores para dar
cuenta de la conjunción de un determinado valor formal con
otro asignable desde el punto de vista funcional. Por
ejemplo, es la codificación de los rasgos de género y caso
en los fenómenos de leísmo,  laísmo o loísmo.


8.  Dirección postal, fax o correo-e de la autora:

    Aurora Martín de Santa Olalla Sánchez
    Universidad Alfonso X El Sabio
    Traducción e Interpretación
    28691 Villanueva de la Cañada (Madrid)
    España

    correo-e: auroraso at uax.es
    Fax: +34-91-810-91-01


9.  Posibilidad de obtener un ejemplar en microficha:

    Universidad Autónoma de Madrid
    Servicio de Publicaciones

----------------------------------------------------
Archivos de INFOLING: http://listserv.rediris.es/archives/infoling.html
------------------------------------------------------




More information about the Infoling mailing list