27.4530, FYI: Corpus do Português: One Billion Words

The LINGUIST List via LINGUIST linguist at listserv.linguistlist.org
Mon Nov 7 18:31:48 UTC 2016


LINGUIST List: Vol-27-4530. Mon Nov 07 2016. ISSN: 1069 - 4875.

Subject: 27.4530, FYI: Corpus do Português: One Billion Words

Moderators: linguist at linguistlist.org (Damir Cavar, Malgorzata E. Cavar)
Reviews: reviews at linguistlist.org (Helen Aristar-Dry, Robert Coté,
                                   Michael Czerniakowski)
Homepage: http://linguistlist.org

*****************    LINGUIST List Support    *****************
                       Fund Drive 2016
                   25 years of LINGUIST List!
Please support the LL editors and operation with a donation at:
           http://funddrive.linguistlist.org/donate/

Editor for this issue: Yue Chen <yue at linguistlist.org>
================================================================


Date: Mon, 07 Nov 2016 13:31:07
From: Mark Davies [mark_davies at byu.edu]
Subject: Corpus do Português: One Billion Words

 We are pleased to announce that a new addition to the Corpus do Português is
now available at http://www.corpusdoportugues.org. While the corpus has been
online for a few weeks, it is now available with an interface and help files
in Portuguese as well.

- The new corpus contains one billion words of data, which makes it 50 times
as large as the 1900s portion of the original Corpus do Português.
- So where you might have had just 30-40 tokens of a word or construction in
the older corpus, you might now have 1,500-2,000 tokens.
- The texts are more recent as well – they are all from the last 3-4 years.
- You can compare the frequency of words, phrases, and syntactic constructions
in the four different Portuguese-speaking countries in the corpus.
- You can also use powerful “virtual corpora” to create and use customized
corpora within the main corpus, such as a particular field of science, a
certain sport, or any other area of interest.
- There is a new interface for the new one billion word corpus, as well as the
original Corpus do Português. This interface has a much “cleaner” interface,
better help files, and they work great on mobile devices (tablets and even
cell phones).
- As mentioned, both corpora are now available with an interface and help
files in both English and Portuguese.
- In summary, we believe that the new corpus has important advantages over
other large corpora of Portuguese, such as Sketch Engine and Corpora on the
Web (see comparisons online).

We invite you to use the new corpora, and hope that they are of value to you
in your research and teaching.

-------------------------

Temos o prazer de anunciar que uma nova adição ao Corpus do Português está
agora disponível em http://www.corpusdoportugues.org (e a partir desta semana,
está disponível com uma nova interface e ficheiros de ajuda em Inglês e
Português) .

- O novo corpo contém um bilhão de dados, o que faz com que seja 50 vezes
maior do que o Corpus original do Português com apenas 1900 palavras.
- Ou seja, anteriormente tinha apenas 30-40 ocorrências de uma palavra ou
construção e agora têm entre 1500-2000.
- Os textos são mais recentes, todos dos últimos 3-4 anos.
- No corpus, pode comparar a frequência de palavras, frases e construções
sintáticas em quatro dos países de língua portuguesa.
- Também pode usar o ''corpora virtual'' de uma forma única, ao criar e usar
corpus personalizados dentro do corpus principal, como um campo específico da
ciência, um determinado esporte ou qualquer outra área de interesse.
- Tal como no Corpus do Português antigo, nova interface do corpus de 2016
contem os mais de um bilhão de textos. Esta interface é muito mais ''limpa'' e
com arquivos de ajuda melhores, eles trabalham muito bem em dispositivos
móveis (tabletes e até mesmo telefones celulares).
- Como mencionado, ambos os corpora estão agora disponíveis com uma nova
interface e arquivos de ajuda em Inglês e Português.
- Em resumo, acreditamos que o novo corpus tem vantagens importantes em
comparação a outros corpora do Português, como o Sketch Engine e Corpora na
Web (ver comparações online).

Nós convidamo-lo a usar o novo corpora e esperamos que sejam de valor á sua
pesquisa e ensino.

Linguistic Field(s): Computational Linguistics
                     Text/Corpus Linguistics

Subject Language(s): Portuguese (por)



------------------------------------------------------------------------------

*****************    LINGUIST List Support    *****************
                       Fund Drive 2016
Please support the LL editors and operation with a donation at:
            http://funddrive.linguistlist.org/donate/

        Thank you very much for your support of LINGUIST!
 


----------------------------------------------------------
LINGUIST List: Vol-27-4530	
----------------------------------------------------------







More information about the LINGUIST mailing list