Corpora: Spanish Corpus

Mon Oct 1 10:07:39 UTC 2001

This note might be interesting for people wanting to use Spanish Corpora

--------------------------------------------------------------------------

Nota de interés para quienes deseen disponer gratis de un corpus del
español actual:

La editorial SGEL, acaba de publicar un diccionario del español actual
basado en el corpus CUMBRE (propiedad de esta misma editorial). Como
incentivo para su promoción, SGEL regala y envía gratis un extracto de
dicho corpus a quien adquiera dicho diccionario. El corpus objeto de regalo
está indexado y se instala junto con el programa informático adecuado para
la extracción de concordancias (palabras aisladas, grupos de palabras, con
o sin comodín, etc.). Dicho programa añade también otras funciones útiles
para el lingüista o para el estudioso en general (como por ejemplo la
identificación geográfica de cada texto y la modalidad de lenguaje) y es de
uso extremadamente sencillo, de modo que cualquier investigador o profesor
se puede familiarizar con él en poco tiempo.

El corpus Cumbre original consta de 20 millones de palabras extraídas del
español oral y escrito de España e Hispanoamérica. Las muestras orales son
de la década de los noventa, y las escritas se retrotraen, en lo que se
refiere a libros y extractos literarios, hasta la década de los cincuenta.
La recopilación se llevó a cabo entre 1990 y 1995; el proyecto fue
financiado por la editorial SGEL s.a.
El corpus objeto de obsequio consta de 2 millones de palabras, extraídas de
muestras orales y escritas del corpus general, según el siguiente reparto:

Fuentes (50% de España y 50% de Hispanoamérica)	

a) Textos extraídos de libros diversos
 (novelística en general, novela policíaca, novela histórica,
novela biográfica, política, deportes, filosofía, cine, derecho, 
historia, ciencia, economía):						      1.000.000

b) Textos extraídos de la prensa (diarios y revistas, 
de las secciones siguientes: política, opinión, economía, 
sociedad, cultura, sucesos, deportes, televisión, entretenimiento, 
cine, justicia, editoriales, medicina/salud, cartas, religión, 
música, ciencia, tráfico, clima, educación, arte, ecología,
necrológicas, arqueología, viajes):						600.000

c) Textos orales (radio y televisión: conversación, 
debate y discusión en grupo):							400.000

                              Total de palabras:	2.000.000

La condición para recibir dicho corpus gratuitamente es adquirir una copia
del Gran Diccionario de Uso del Español Actual, primer diccionario
redactado sobre la base del mencionado corpus Cumbre, de 20 millones de
palabras (cada ejemplar contiene una solapa que debe remitirse a SGEL para
recibir el corpus). El diccionario en sí es una obra de 2.160 páginas, a
tres columnas; contiene unas 72.000 voces, más de 150.000 acepciones y más
de 100.000 ejemplos ilustrativos extraídos del corpus. El diccionario
cuesta 9.500 ptas (57 Euros) y la adición del corpus no incrementa el
precio. De modo que es una excelente oportunidad para obtener dos productos
por uno. Si sirve de referencia, la obra es similar en volumen al
recientemente publicado The New Oxford English Dictionary (Oxford 1998).
Para información y pedidos, el interesado debe dirigirse a:

pedidos.libros at sgel.es

-----------------------------------------------------
Dr. Pascual Cantos Gómez

Departamento de Filología Inglesa
Universidad de Murcia
C/. Santo Cristo, 1
30071 Murcia (Spain)

Tel.:	+34 968 364365
Fax:	+34 968 363185
E-mail:	pcantos at fcu.um.es
http://www.um.es/lacell/miembros/pcg/