[Corpora-List] CETENFolha corpus

Santos Diana Diana.Santos at sintef.no
Wed Sep 25 12:53:25 UTC 2002


[English below]
Caros colegas,

Temos o prazer de anunciar que o CETENFolha se encontra finalmente
disponível.

O CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de São
Paulo) é um corpus de cerca de 24 milhões de palavras em português
brasileiro, criado pelo projecto Processamento computacional do português
com base nos textos do jornal Folha de S. Paulo que fazem parte do corpus
NILC/São Carlos, compilado pelo Núcleo Interinstitucional de Lingüística
Computacional (NILC). 

http://acdc.linguateca.pt/cetenfolha

Aproveitamos para agradecer publicamente ao NILC e à Folha de São Paulo as
generosas autorizações.

Também aproveitamos para anunciar que o centro de recursos que o projecto
Processamento Computacional do Português tem vindo a tentar lançar recebeu,
recentemente, o nome de Linguateca, e tentaremos migrar para esse nome (e
respectivos endereços URL) de forma a trazer o mínimo de inconvenientes aos
nossos utilizadores. 

Saudações,
Diana Santos & Paulo Rocha
www.linguateca.pt
projecto at informatics.sintef.no

--------
Dear colleagues,
We are happy to inform that the CETENFolha corpus is finally available:

CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de São
Paulo) is a corpus containing some 24 million words in Brazilian Portuguese,
built by the project Computational Processing of Portuguese from the texts
of Folha de S. Paulo belonging to the corpus NILC/São Carlos, compiled by
Núcleo Interinstitucional de Lingüística computacional (NILC). 

http://acdc.linguateca.pt/cetenfolha

(To get it it is enough to register in the form at the botom of the above
Webpage.)

We are grateful to NILC and the newspaper for giving us permission.

We also use this opportunity to inform that the resource centre that the
Computational Processing of Portuguese project has been slowly building has
now the name Linguateca, with corresponding URLs. We will try to migrate to
this new namespace with minimal inconvenience to users.

Saudações,
Diana Santos & Paulo Rocha
www.linguateca.pt
projecto at informatics.sintef.no



More information about the Corpora mailing list