[Corpora-List] New version of the 100 million word [Corpus del espa ñol]

Mark Davies Mark_Davies at byu.edu
Mon Dec 17 18:30:36 UTC 2007


 [ Anuncio en español abajo ]

We would like to announce that there is now a new version of the Corpus del Español: http://www.corpusdelespanol.org. The [Corpus del Español] is a 100 million word corpus of Spanish from the 1200s-1900s, and has been online since 2002.

------------------------------------------------------------------------

This version allows users to do many things that were not possible in the previous version, including the following:

-- Find the collocates ('nearby words') for a given word up to 10 words to the left and right of the node word. For example, you can find the words within five words to the left or to the right of 'mujer', nouns near 'grave', or adjectives 1-10 words to the right of 'rostro'). This information can be very useful in understanding the meaning of a given word.

-- With one simple query, compare the collocates of two words (to see the difference between the related words, e.g. 'pelo/cabello', 'comenzar/iniciar', or 'gozar'/'disfrutar').

-- Compare the collocates in two historical periods or in two genres (e.g. a comparison of the collocates of 'woman' in the 1800s and the 1900s, or the collocates of 'cadena' in fiction and academic).

-- Sort collocates according to their overall frequency in the corpus (using Mutual Information score). For example, instead of 'rostro de, en, que', etc, the query 'rostro *' yields 'rostro ovalado, desencajado, amoratado', etc.

-- See bar charts that show the overall frequency of a word, phrase, or grammatical construction in the 1200s-1900s and the four registers from the 1900s (spoken, fiction, newspaper, and academic)

-- Save the results of a search and retrieve them (and use them) at a later time

-- Search for much wider strings of words -- up to 21 words in the string (compared to 3-4 words in the previous version)

-- The corpus has been completely re-lemmatized and re-tagged for part of speech, and it is much more accurate than before. With the new architecture, it will be possible to do searches using fuzzy matching for part of speech (e.g. [v*] for all verbs) or for more specific parts of speech (e.g. [*n*ms*] for all singular masculine nouns)

-- The textual corpus has been reorganized. For the 1900s, there are now four equally-sized divisions: spoken (five million words), fiction (5m), newspaper (5m), and academic (5m).

-- The search interface and the query syntax have been completely changed, to make the searches more intuitive and easy to carry out.

We invite you to visit the new corpus, and hope that it will be of value to you in your research.

===========================================

[ Este mensaje se envía a los usuarios registrados del Corpus del español ]

Nos complace comunicarles que existe una nueva versión del Corpus del Español: http://www.corpusdelespanol.org. Ésta les permite hacer muchas cosas que eran imposibles en la versión anterior, inclusive las siguientes:

-- Encontrar las colocaciones ('palabras cercanas') de una determinada palabra -- por ejemplo, las palabras que quedan dentro de cinco palabras a la izquierda o a la derecha de 'mujer'; sustantivos cerca de 'grave'; o los adjetivos que están cerca de 'rostro'). Esta información puede resultar muy útil para entender el significado de una determinada palabra.

-- Con una simple consulta, comparar las colocaciones de dos palabras (para ver la diferencia entre palabras relacionadas, por ejemplo 'pelo/cabello', 'comenzar/iniciar' o  'gozar/disfrutar').

-- Comparar las colacaciones en dos períodos históricos o en dos géneros (por ejemplo, una comparación de las colocaciones de 'mujer' entre el siglo XIX y XX, o las colocaciones de 'cadena' en ficción y en textos académicos).

-- Ordenar las colocaciones según la frecuencia global en el Corpus (usando la "Información Mutua"). Por ejemplo, en lugar de 'rostro de, en, que, etc.', la consulta 'rostro *' produce 'rostro ovalado, desencajado, amoratado, etc.'.

-- Ver un gráfico de barras que muestra la frecuencia global de una palabra, frase o construcción gramatical entre los siglos XIII-XX, así como en los cuatro registros del siglo XX (oral, ficción, periodístico y académico).

-- Guardar los resultados de una búsqueda y recuperarlos (y usarlos) después de un tiempo.

-- Registrar series más amplias de palabras, hasta 21 palabras en una serie (comparado con las 3-4 en la versión anterior).

-- El Corpus se ha re-lematizado y re-etiquetado y es mucho más exacto que antes. Con la nueva arquitectura, será posible hacer búsquedas utilizando ocurrencias para categorías léxicas poco específicas (por ejemplo, [v*] para todos los verbos) o para categorías léxicas específicas (por ejemplo, [*n*ms] para todos los nombres en masculino singular).

-- El Corpus textual se ha reorganizado. Para el siglo XX ahora hay cuatro divisiones de igual tamaño: oral (5 millones de palabras), ficción (5 millones), periodismo (5 millones) y texto académico (5 millones).

-- La interfaz y la sintaxis de las consultas se han modificado completamente para hacer búsquedas más intuitivas y fáciles de realizar.

Les invitamos a visitar el nuevo Corpus y esperamos que le sea útil en su investigación.


_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora



More information about the Corpora mailing list