Ressources: JRC-Acquis, un grand corpus parallele aligne en 21 langues, telechargeable gratuitement

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Sat May 20 09:52:56 UTC 2006


Date: Fri, 19 May 2006 15:00:50 +0200
From: Bruno Pouliquen <bruno.pouliquen at jrc.it>
Message-id: <446DC182.2090407 at jrc.it>
X-url: http://langtech.jrc.it/JRC-Acquis.html
X-url: http://langtech.jrc.it/#Publications
X-url: http://langtech.jrc.it
X-url: http://press.jrc.it/NewsExplorer


Nous avons le plaisir de vous communiquer la publication de notre
corpus.

JRC-Acquis : un grand corpus parallèle aligné en 21 langues; 
téléchargeable gratuitement

TAILLE, FORMAT :
- 21 langues (les 20 langues officielles de l’Union Européenne +
  Roumain)
- Taille moyenne: 8,8 millions de mots par langue
- Format XML selon les recommandations TEI P4, encodage UTF-8
- Modulaire, chaque langue peut être téléchargée séparément

LANGUES
Allemand, anglais, danois, espagnol, estonien, finnois, français,
grec, hongrois, italien, letton, lituanien, maltais, néerlandais,
polonais, portugais, roumain, slovaque, slovène, suédois et tchèque

ALIGNEMENT DES PARAGRAPHES
- Alignement (au niveau des paragraphes) pour les 210 paires de langue
- Deux outils d’alignement différents: Vanilla et HunAlign
- Environ 270.000 alignements par pair de langues.

CLASSIFICATION
Ces textes ont été classifiés manuellement à l’aide du thésaurus
Eurovoc. Il s’agit d’environ 6.000 “descripteurs” (organisés dans une
structure hiérarchique), couvrant divers domaines

UTILISATION
- Disponible sur le site : http://langtech.jrc.it/JRC-Acquis.html
- Gratuit pour tout usage de recherche.

Pour plus de renseignement, lire l’article correspondant :
Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž 
Erjavec, Dan Tufiş, Dániel Varga (2006). 'The JRC-Acquis: A multilingual 
aligned parallel corpus with 20+ languages'. Actes de la conférence LREC 
2006. Gênes Italie 24-26 Mai 2006. Disponible à 
http://langtech.jrc.it/#Publications.

CONTACTS
Ralf Steinberger (Ralf.Steinberger at jrc.it)
Commission Européenne – Centre Commun de Recherche (CCR - JRC)
IPSC - SeS - Language Technology
URL: http://langtech.jrc.it, http://press.jrc.it/NewsExplorer
T.P. 267, Via Fermi 1
21020 Ispra (VA), Italie
Tel: +39 0332 78-6271
Fax: +39 0332 78-5154

-- 
Bruno Pouliquen (Bruno.Pouliquen at jrc.it) http://langtech.jrc.it/
Language Technologies, IPSC Institute, European Commission
Joint Research Centre - TP 267  I-21020 Ispra (VA) 
Tel: (+ 39) 0332 78 9309   Fax: (+39) 0332 78 9098 




-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version          : 
Archives                 : http://listes.cines.fr/wws/arc/ln
                           http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list