Proyecto de =?iso-8859-1?Q?investigaci=F3n?=: «CORPUS LÉXICO DEL CASTELLANO DEL SIGLO XV EN LA CORONA DE ARAGÓN»
Carlos Subirats Rüggeberg
Carlos.Subirats at UAB.ES
Wed Jan 13 18:07:36 UTC 1999
INFOLING Lista moderada de lingüística española
http://listserv.rediris.es/archives/infoling.html
Envío de información: INFOLING-request at listserv.rediris.es
Editor: Carlos Subirats Rüggeberg <Carlos.Subirats at uab.es>
Colaboradoras:
Paola Bentivoglio <pbentivo at reacciun.ve>, UCV
Eulalia de Bobes <ebobes at seneca.uab.es>, UAB
Mar Cruz <mcruz at lingua.fil.ub.es>, UB
Emma Martinell <martinell at lingua.fil.ub.es>, UB
____________________________________________________________
Información sobre el proyecto de investigación:
«CORPUS LÉXICO DEL CASTELLANO DEL SIGLO XV EN LA CORONA DE
ARAGÓN», financiado por el Ministerio de Educación y Cultura de
España; Nº de proyecto: PB95-0275
Información proporcionada por: Coloma Lleal <lleal at fil.ub.es>
http://www.ub.es/ffsecl/21pll1d.htm
____________________________________________________________
La profesora Coloma Lleal nos manda la siguiente información
sobre el proyecto «CORPUS LÉXICO DEL CASTELLANO DEL SIGLO XV EN
LA CORONA DE ARAGÓN», que ella dirige en el Departamento de
Filología Española de la Universidad de Barcelona en España:
1. Hemos introducido en una base de datos (FoxPro) algunos
textos del siglo XV escritos en castellano en la Corona de
Aragón. Nuestra intención era caracterizar esta modalidad de
castellano, con claras influencias (o reminiscencias) del
aragonés y con interferencias del catalán. A partir de estos
datos pretendemos confeccionar un diccionario que refleje el uso
real del castellano de la época.
2. Queríamos que la muestra fuese suficientemente
significativa, por lo que hemos seleccionado textos de distintos
registros, tanto no literarios (A) como literarios (B):
A1: textos cancillerescos, jurídicos o
administrativos;
A2: textos científicos o técnicos;
B1: textos narrativos o descriptivos;
B2: textos novelescos.
En el apartado A1, hemos procedido a la transcripción directa
de:
- 100 registros de Cancillería (sello secreto),
- 2 documentos del Real Patrimonio (Rentas Reales de
Aragón de 1412 y 1417) y
- todos los pergaminos escritos en castellano (o
castellano-aragonés) del Fondo Sástago (cerca de un
centenar).
En el apartado A2, hemos introducido:
- el "Libro de Albeyteria", de Manuel Díaz, traducido
del catalán por Martín de Ampiés, y
- el "Compendio de la salud humana", que comprende el:
- Tractado de las urinas,
- Tractado de la flebotomia o sangrias,
- Tractado de los XII Signos,
- Tractado de las dolencias de las mujeres,
- Tractado de la cirurgia,
- Tractado del pulso y de las dolencias,
- Tractado de la peste y
- Arte de phisonomia.
Estos textos aparecen transcritos en el ADMYTE, pero hemos
partido del facsímil a fin de seguir de forma rigurosa un mismo
criterio de transcripción en todos los textos analizados.
En el apartado B1, hemos introducido:
- la "Crónica de Aragón" de Gauberto Fabrizio de Vagad,
- el "Tratado de Roma", de Martín de Ampiés y
- el "Viaje de la Tierra Santa", de Bernardo de
Breidembach, traducido y anotado por Martín de Ampiés.
Como en el apartado anterior, partimos básicamente del facsímil
reproducido en el ADMYTE.
Finalmente, en el apartado B2, hemos introducido:
- el "Breve tractado de Grimalte y Gradissa" y
- el "Tractado de Grisel y Mirabella", ambos de Juan
de Flores (partimos de las ediciones facsímiles de los
incunables correspondientes).
En total, introducimos un millón de formas, distribuidas de forma
regular entre los dos grandes apartados de nuestro proyecto.
3. En la siguiente etapa, procedemos a la lematización de las
formas. Partimos de un programa que lematiza automáticamente más
del 90% del texto:
- catálogo de formas invariables,
- reconocimiento de formas flexivas y derivativas, más
un pequeño vocabulario de los términos léxicos de uso
más frecuente.
El lematizador trabaja en dos etapas, de manera que en una
primera "pasada" etiqueta las formas homónimas de acuerdo con su
valor más frecuente; mientras que en una segunda visión, cuando
los términos contiguos han sido lematizados, puede resolver
numerosos casos de ambigüedad (art. vs pron. pers. para 'LO' o
'LA'; conj. vs pron. rel. para 'QUE', etc.). El resto se ha
lematizado manualmente. A partir de ese momento, disponemos de
una base -TEXTO- que conserva el orden de sucesión de las formas
en los textos introducidos, y en la que cada forma aparece
acompañada de su función o "categoría gramatical", del lema o
vocablo a que corresponde y de su situación en el texto (tipo de
texto -A1, A2, etc.-, documento y folio).
4. A continuación, creamos dos nuevas bases que nos permitan
estudiar el sentido y la función de los vocablos en el texto.
Una primera base -CONTEXTO- contextualiza cada una de las
ocurrencias de un lema. En otros términos, presenta un campo para
la forma contextualizada (con los 10 términos precedentes y los
10 siguientes). Y, además, presenta un campo para el lema, otro
para la acepción, otro para la función y otro, finalmente, para
las variantes (este último, de gran interés en el estudio de
textos no contemporáneos).
La segunda base -VALOR- presenta un campo para los lemas,
otro para las acepciones y otro para el sentido. A partir de este
momento trabajamos conjuntamente con ambas bases, de manera que
las distintas acepciones de un término se establecen en función
de los valores que efectivamente presentan en nuestros textos.
Asimismo, afinamos aquí las características del campo "función"
-valores conjuntivos o adverbiales de ciertas formas; usos
transitivos o intransitivos de ciertos verbos-.
5. En otra base -ETIMO-, tenemos un campo para los lemas,
otro para el étimo y otro donde especificamos la fecha de primera
aparición propuesta en el DCECH. Cotejamos los datos con los que
proporcionan los -escasos- diccionarios históricos existentes.
6. Finalmente, aplicamos una serie de programas auxiliares
que facilitan la interpretación de los datos a partir de la
relación entre las distintas bases. El usuario tiene la
posibilidad de elegir una forma o un lema a partir de un listado
que aparece en pantalla. A continuación recibe una "ficha"
recopilatoria donde aparecen los siguientes datos:
1. lema;
2. base léxica;
3. frecuencia absoluta y frec. relativa del lema;
4. étimo;
5. fecha de primera aparición;
5.1. Si el término no está documentado en época
medieval, se marca como neologismo,
5.2. También se especifica la fecha de nuestro
documento si es anterior a la del DCECH;
6. otros lemas de la misma familia léxica;
7. función;
8. acepciones;
9. selección de dos ejemplos para cada acepción;
10. frecuencia de cada acepción;
11. distribución de cada acepción según los tipos de
texto;
12. sinónimos;
13. conjunto de formas en que aparece (paradigma
formal);
14. conjunto de variantes (equivalentes a las
entradas secundarias del diccionario que remiten
a una entrada principal).
(Nota: todos estos datos, referidos siempre a lo realmente
presente en nuestros textos).
7. Para la difusión de los resultados, pensamos editar un
CD-Rom que permita acceder a los datos de forma fácil y
económica.
8. Estado actual de nuestro proyecto.
Una parte del equipo está terminando la revisión de las
transcripciones de los textos correspondientes al Fondo Sástago;
el resto de textos están ya lematizados. Simultáneamente, hemos
empezado ya a trabajar con las dos bases CONTEXTO y VALOR y
tenemos prácticamente terminadas las tres primeras letras del
abecedario. Asimismo, tenemos muy avanzada la elaboración de la
base ETIMO. Y, finalmente, tenemos diseñados los programas que
permitan la obtención de datos.
Más información sobre el proyecto de investigación:
http://www.ub.es/ffsecl/21pll1d.htm
----------------------------------------------------
Archivos de INFOLING: http://listserv.rediris.es/archives/infoling.html
------------------------------------------------------
More information about the Infoling
mailing list