[Corpora-List] Announcement: Corpus do Portugu ês, 45 million word s, 1300s-1900s

Mon Sep 25 11:50:00 UTC 2006

[Anúncio em português debaixo]

We are pleased to announce the release of the Corpus do Português (http://www.corpusdoportugues.org). This corpus has been funded by the US National Endowment for the Humanities, and is now freely available online.

This corpus allows you to quickly and easily search more than 45 million words in more than 50,000 Portuguese texts from the 1300s to the 1900s. The interface allows you to search for exact words or phrases, substrings, lemmas, part of speech, or any combinations of these.  You can also search for surrounding words (collocates) within a ten-word window.  

The corpus also allows you to easily compare (and see, via charts) the frequency of and distribution of words, phrases, and grammatical constructions across texts, in at least three ways:

-- By register: comparisons between spoken, fiction, newspaper, and academic 
-- By dialect: Portugal compared with Brazil 
-- By historical period: compare different centuries from the 1300s to the 1900s 

You can also easily carry out semantically-based queries of the corpus. For example, you can compare and contrast the collocates of two related words to determine the difference in meaning between these words.  You can find the frequency and distribution of synonyms for more than 20,000 words and also compare their frequency in different registers, countries, and historical periods, and use these word lists as part of other queries. Finally, you can easily create your own lists of semantically-related words, and then use them directly as part of the query.

-------------------------------------

Temos o prazer de anunciar o lançamento do Corpus do Português (http://www.corpusdoportugues.org). Este corpus foi generosamente patrocinado pela US National Endowment for the Humanities, e está disponível gratuitamente na internet.

Este sítio permite pesquisar fácil e rapidamente mais de 45 milhões de palavras em mais de 50,000 textos em português dos Trezentos aos Novecentos. A interface permite pesquisar palavras exatas ou frases, cadeias de pesquisa, lemas, classes gramaticais, ou qualquer combinação dos referidos elementos.  Proporciona também a pesquisa de palavras vizinhas (collocates) com um contexto de dez palavras de cada lado. 

O corpus também permite comparar (e ver através de diagramas) a freqüência e distribuição de palavras, frases e construções gramaticais em textos de pelo menos três maneiras diferentes:

-- Registro: comparações entre o falado, a ficção, o jornalístico, e o acadêmico
-- Variedades do português: Portugal versus Brazil no século XX
-- Período histórico: comparação de séculos diferentes dos Trezentos aos Novecentos

Realiza-se também com facilidade consultas de índole semântica no corpus. Por exemplo, a diferença de significado entre duas palavras relacionadas pode ser determinada através da comparação e contraste das palavras vizinhas. Pode-se encontrar a freqüência e a distribuição de sinônimos de mais de 20,000 palavras e comparar esta freqüência em registros ou países diferentes, ou inclusive ao longo dos séculos. Estas listas de palavras podem ser armazenadas e usadas para futuras consultas. Pode-se, além disso, criar suas próprias listas de palavras com um parentesco semântico, e usá-las como parte da consulta.

-------------------------------------

Mark Davies
Professor of Corpus Linguistics
Brigham Young University

Michael J. Ferreira
Professor of Portuguese Philology and Linguistics
Georgetown University