27.4531, FYI: Corpus del Español: Two Billion Words

The LINGUIST List via LINGUIST linguist at listserv.linguistlist.org
Mon Nov 7 18:32:38 UTC 2016


LINGUIST List: Vol-27-4531. Mon Nov 07 2016. ISSN: 1069 - 4875.

Subject: 27.4531, FYI: Corpus del Español: Two Billion Words

Moderators: linguist at linguistlist.org (Damir Cavar, Malgorzata E. Cavar)
Reviews: reviews at linguistlist.org (Helen Aristar-Dry, Robert Coté,
                                   Michael Czerniakowski)
Homepage: http://linguistlist.org

*****************    LINGUIST List Support    *****************
                       Fund Drive 2016
                   25 years of LINGUIST List!
Please support the LL editors and operation with a donation at:
           http://funddrive.linguistlist.org/donate/

Editor for this issue: Yue Chen <yue at linguistlist.org>
================================================================


Date: Mon, 07 Nov 2016 13:32:14
From: Mark Davies [mark_davies at byu.edu]
Subject: Corpus del Español: Two Billion Words

 We are pleased to announce that a new addition to the Corpus del Español is
now available at http://www.corpusdelespanol.org. (Note that while the new
corpus has been online for a few weeks, the interface and help files are now
available in both English and Spanish).

- The new corpus contains two billion words of data, which makes it 100x as
large as the 1900s portion of the original Corpus del Español.
- So where you might have had just 15-20 tokens of a word or construction in
the older corpus, you might now have 1,500-2,000 tokens.
- The texts are more recent as well – they are all from the last 3-4 years.
- You can compare the frequency of words, phrases, and syntactic constructions
in the 21 different Spanish-speaking countries in the corpus.
- You can also use powerful “virtual corpora” to create and use customized
corpora within the main corpus, such as a particular field of science, a
certain sport, or any other area of interest.
- There is a new interface for the new two billion word corpus, as well as the
original 100 million word Corpus del Español. This interface has a much
“cleaner” interface, better help files, and they work great on mobile devices
(tablets and even cell phones).
- As mentioned, both corpora are now available with an interface and help
files in both English and Spanish. (Thanks to Gerardo Cruz for his help with
the translations).

In summary, we believe that the new corpus has important advantages over other
large corpora of Spanish, such as CORPES (RAE) and the Spanish corpora from
Sketch Engine and Corpora on the Web (see comparisons online).

We invite you to use the new corpora, and hope that they are of value to you
in your research and teaching.

--------------------

Nos complace anunciarles que ya se puede acceder a la nueva versión del Corpus
del Español en http://www.corpusdelespanol.org (y, desde esta semana, tanto la
interfaz como los archivos de ayuda están disponibles en inglés y en español).

- El nuevo corpus contiene 2000 millones de palabras, lo que supone 100 veces
más que la sección del siglo XX del Corpus del Español original.
- Las búsquedas que producían entre 15 y 20 resultados al consultar el antiguo
corpus pasarían a ofrecer ahora entre 1.500 y 2.000 resultados.
- Además, los textos son más recientes (tomados de los últimos tres o cuatro
años).
- Es posible comparar frecuencias de palabras, sintagmas y construcciones
sintácticas entre los 21 países hispanohablantes incluidos en el corpus.
- También es posible hacer uso de los potentes “corpus virtuales” para crear y
consultar corpus personalizados a partir del corpus principal (subcorpus sobre
un ámbito específico de las ciencias, un deporte determinado o cualquier otra
área de interés).
- Hemos implementado una nueva interfaz para este nuevo corpus, que también
funciona con el Corpus del Español original. Esta interfaz tiene una
apariencia mucho más “limpia”, con mejores archivos de ayuda y funciona muy
bien con dispositivos móviles (tabletas e incluso celulares).
- Ambos corpus están ahora disponibles con la interfaz y los archivos de ayuda
tanto en inglés como en español. (Gracias a Gerardo Cruz por su ayuda con las
traducciones).

En definitiva, creemos que el nuevo corpus goza de grandes ventajas en
relación con otros grandes corpus del español, como el CORPES (RAE) y los
corpus del español de Sketch Engine y Corpora on the Web (se puede consultar
una comparativa en nuestra web).

Les invitamos a utilizar estos nuevos corpus y esperamos que les sean de
utilidad en tanto en sus investigaciones como en sus clases.

Linguistic Field(s): Computational Linguistics
                     Text/Corpus Linguistics

Subject Language(s): Spanish (spa)



------------------------------------------------------------------------------

*****************    LINGUIST List Support    *****************
                       Fund Drive 2016
Please support the LL editors and operation with a donation at:
            http://funddrive.linguistlist.org/donate/

        Thank you very much for your support of LINGUIST!
 


----------------------------------------------------------
LINGUIST List: Vol-27-4531	
----------------------------------------------------------







More information about the LINGUIST mailing list