Recurso ling üístico en la red: Lista de Fre cuencias de Palabras del Castellano de Chile
Carlos Subirats
carlos.subirats at GMAIL.COM
Fri May 30 23:31:04 UTC 2008
------------------- INFOLING --------------------
Lista de distribución sobre lingüística del español (ISSN: 1576-3404): http://elies.rediris.es/infoling/
Envío de información: infoling-request at listserv.rediris.es
EDITORES:
Carlos Subirats Rüggeberg, UAB <carlos.subirats at uab.es>
Mar Cruz Piñol, U. Barcelona <mcruz at ub.edu>
Eulalia de Bobes Soler, U. Abat Oliba-CEU <debobes1 at uao.es>
Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüística del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.
© Infoling, Barcelona (España) 1996-2008. Reservados todos los derechos
---------------------------------------------------------------------
Infoling (1996-2008): 3.200 participantes en más de 50 países
Con el apoyo de Editorial Arco Libros
Consulta su catálogo de Lingüística, E/LE, Historia y Publicaciones periódicas:
http://www.arcomuralla.com/Arco/Shop/default.asp
-------------------------------------------------------------------------------------------
Recurso lingüístico en la red:
Lista de Frecuencias de Palabras del Castellano de Chile (LIFCACH)
Scott Sadowsky (Universidad de Concepción) & Ricardo Martínez Gamboa
(Universidad de Chile)
http://www2.udec.cl/~ssadowsky/lifcach.html
-------------------------------------------------------------------------------------------
Descripción
La Lista de Frecuencias de Palabras del Castellano de Chile (LIFCACH)
es un conjunto de 102 listas de frecuencias léxicas derivadas de los
distintos subcorpora del Corpus Dinámico del Castellano de Chile
(CODICACH), un corpus del español escrito contemporáneo de Chile
desarrollado por Sadowsky entre 1997 y 2002; este corpus contenía
aproximadamente 450 millones de palabras a la hora de elaborar la
LIFCACH (actualmente contiene alrededor de 830 millones de palabras).
La LIFCACH también contempla una lista no ponderada de frecuencias
totales (la columna titulada Total Occurrences), la cual es
simplemente la suma de las frecuencias de las 102 listas individuales
(en otras palabras, es la lista de las frecuencias del CODICACH en su
totalidad).
Aunque podría existir la tentación de interpretar la lista Total
Occurrences como una lista representativa del castellano de Chile en
general, recomendamos encarecidamente no hacerlo. El CODICACH es un
corpus oportunista que privilegia, entre otras cosas, los medios de
prensa escritos; tal como está estructurado, no pretende ser una
muestra representativa de la variante lingüística nacional, al estilo
del BNC. Sin embargo, la naturaleza modular del CODICACH y de las 102
listas individuales de la LIFCACH permite a los investigadores
utilizar una o más de estas listas de manera independiente;
combinarlas según sus propias necesidades; o ponderar las listas
individuales de la LIFCACH para así crear una nueva lista de
frecuencias que sea representativa según los criterios del
investigador.
La LIFCACH contiene 477.293 lemas, derivados de aproximadamente 4,5
millones de types extraídos de los 450 millones de palabras de texto
corrido que contemplaba el CODICACH al momento de elaborar la LIFCACH.
Elaboración de la LIFCACH
A continuación se presentan los pasos de la creación de la LIFCACH:
1. Se generaron listas de frecuencias de types en base a las
palabras de texto corrido de cada uno de los 102 subcorpora del
CODICACH.
2. Se lematizó y etiquetó con categorías gramaticales (POS) cada
una de las listas de frecuencias de types con el programa MS-Tools
v2.0 de la Universitat Politecnica de Catalunya (para más información
sobre MS-Tools, comuníquese con Lluís Padró).
3. Se eliminaron los aproximadamente 300.000 lemas con una
frecuencia de 1 (hápax legómenos). La eliminación de estos lemas
representa un intento de establecer un equilibrio entre la completitud
de las listas y el tamaño y procesabilidad de los archivos.
4. Las listas de frecuencias de lemas resultantes se incorporaron
en un archivo CSV, y luego se calcularon las frecuencias totales.
Es preciso hacer una advertencia respecto de esta metodología. La
utilización de listas de frecuencias de types en vez de palabras de
texto corrido en el proceso de lematización y etiquetado POS surgió de
una necesidad práctica relacionada con la velocidad del software y los
recursos computacionales disponibles en el momento de la elaboración
de la LIFCACH. En consecuencia, el software debió analizar palabras
como canto sin disponer de la información necesaria para determinar si
una instancia dada de esta palabra correspondía al verbo cantar o al
sustantivo canto. La eliminación del contexto redujo la precisión del
etiquetado y lematización, aunque mucho menos de lo que sucedería en
el caso del inglés, gracias a la compleja morfología del castellano.
También debe notarse que el software de etiquetado POS y lematización
que se utilizó está basado en el castellano de España, un dialecto
nacional que es un tanto alejado del castellano de Chile.
Los autores están preparando un nuevo conjunto de listas de
frecuencia, LIFCACH II, para subsanar estas deficiencias.
Advertencia
La LIFCACH no debe abrirse en Microsoft Excel. La última versión de
este programa que hemos probado sólo puede abrir las primeras 65.000
filas (aproximadamente). Sugerimos utilizar Microsoft Access, Quattro
Pro, o un software de estadística adecuado.
Uso
La LIFCACH está protegida por las leyes de propiedad intelectual
(Copyright (c) 2006 Scott Sadowsky & Ricardo Martínez Gamboa). La
LIFCACH puede utilizarse libre y gratuitamente para fines académicos
que no tengan fines de lucro, siempre que se cite la fuente. Se
prohíbe expresamente todo uso o aplicación comercial de la LIFCACH que
no cuente con el consentimiento escrito previo de los autores.
Más información y descarga de datos:
http://www2.udec.cl/~ssadowsky/lifcach.html
----------------------------------------------------------------------
Arco Libros: un editor que apoya a Infoling
Consulta su catálogo de Lingüística, E/LE, Historia y Publicaciones periódicas:
http://www.arcomuralla.com/Arco/Shop/default.asp
----------------------------------------------------------------------
Puedes personalizar tus opciones de suscripción, darte de alta, etc.,
desde la web de Infoling en http://elies.rediris.es/infoling . Para ello,
tienes que pinchar el enlace -> Suscripción del menú de la izquierda.
----------------------------------------------------------------------
More information about the Infoling
mailing list