17.2739, FYI: Corpus do Portugu ê s, 45 Million Words, 1300s-1900s

linguist at LINGUISTLIST.ORG linguist at LINGUISTLIST.ORG
Mon Sep 25 12:53:04 UTC 2006


LINGUIST List: Vol-17-2739. Mon Sep 25 2006. ISSN: 1068 - 4875.

Subject: 17.2739, FYI: Corpus do Português, 45 Million Words, 1300s-1900s

Moderators: Anthony Aristar, Eastern Michigan U <aristar at linguistlist.org>
            Helen Aristar-Dry, Eastern Michigan U <hdry at linguistlist.org>
 
Reviews: Laura Welcher, Rosetta Project / Long Now Foundation  
         <reviews at linguistlist.org> 

Homepage: http://linguistlist.org/

The LINGUIST List is funded by Eastern Michigan University, Wayne
State University, and donations from subscribers and publishers.

Editor for this issue: Hunter Lockwood <hunter at linguistlist.org>
================================================================  

To post to LINGUIST, use our convenient web form at
http://linguistlist.org/LL/posttolinguist.html.


===========================Directory==============================  

1)
Date: 24-Sep-2006
From: Mark Davies < mark_davies at byu.edu >
Subject: Corpus do Português, 45 Million Words, 1300s-1900s 

	
-------------------------Message 1 ---------------------------------- 
Date: Mon, 25 Sep 2006 08:49:01
From: Mark Davies < mark_davies at byu.edu >
Subject: Corpus do Português, 45 Million Words, 1300s-1900s 
 

We are pleased to announce the release of the Corpus do Português
(http://www.corpusdoportugues.org). This corpus has been funded by the US
National Endowment for the Humanities, and is now freely available online.

This corpus allows you to quickly and easily search more than 45 million
words in more than 50,000 Portuguese texts from the 1300s to the 1900s. The
interface allows you to search for exact words or phrases, substrings,
lemmas, part of speech, or any combinations of these.  You can also search
for surrounding words (collocates) within a ten-word window.  

The corpus also allows you to easily compare (and see, via charts) the
frequency of and distribution of words, phrases, and grammatical
constructions across texts, in at least three ways:

-- By register: comparisons between spoken, fiction, newspaper, and academic 
-- By dialect: Portugal compared with Brazil 
-- By historical period: compare different centuries from the 1300s to the
1900s 

You can also easily carry out semantically-based queries of the corpus. For
example, you can compare and contrast the collocates of two related words
to determine the difference in meaning between these words.  You can find
the frequency and distribution of synonyms for more than 20,000 words and
also compare their frequency in different registers, countries, and
historical periods, and use these word lists as part of other queries.
Finally, you can easily create your own lists of semantically-related
words, and then use them directly as part of the query.

[Anúncio em português]

Temos o prazer de anunciar o lançamento do Corpus do Português
(http://www.corpusdoportugues.org). Este corpus foi generosamente
patrocinado pela US National Endowment for the Humanities, e está
disponível gratuitamente na internet.

Este sítio permite pesquisar fácil e rapidamente mais de 45 milhões de
palavras em mais de 50,000 textos em português dos Trezentos aos
Novecentos. A interface permite pesquisar palavras exatas ou frases,
cadeias de pesquisa, lemas, classes gramaticais, ou qualquer combinação dos
referidos elementos.  Proporciona também a pesquisa de palavras vizinhas
(collocates) com um contexto de dez palavras de cada lado. 

O corpus também permite comparar (e ver através de diagramas) a freqüência
e distribuição de palavras, frases e construções gramaticais em textos de
pelo menos três maneiras diferentes:

-- Registro: comparações entre o falado, a ficção, o 
jornalístico, e o acadêmico
-- Variedades do português: Portugal versus Brazil no século XX
-- Período histórico: comparação de séculos diferentes dos 
Trezentos aos Novecentos

Realiza-se também com facilidade consultas de índole semântica no corpus.
Por exemplo, a diferença de significado entre duas palavras relacionadas
pode ser determinada através da comparação e contraste das palavras
vizinhas. Pode-se encontrar a freqüência e a distribuição de sinônimos de
mais de 20,000 palavras e comparar esta freqüência em registros ou países
diferentes, ou inclusive ao longo dos séculos. Estas listas de palavras
podem ser armazenadas e usadas para futuras consultas. Pode-se, além disso,
criar suas próprias listas de palavras com um parentesco semântico, e
usá-las como parte da consulta.

Mark Davies
Professor of Corpus Linguistics
Brigham Young University

Michael J. Ferreira
Professor of Portuguese Philology and Linguistics
Georgetown University 



Linguistic Field(s): Ling & Literature
                     Text/Corpus Linguistics





-----------------------------------------------------------
LINGUIST List: Vol-17-2739	

	



More information about the LINGUIST mailing list