Ressources: JRC-Acquis, un grand corpus parallele aligne en 21 langues, telechargeable gratuitement
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Sat May 20 09:52:56 UTC 2006
Date: Fri, 19 May 2006 15:00:50 +0200
From: Bruno Pouliquen <bruno.pouliquen at jrc.it>
Message-id: <446DC182.2090407 at jrc.it>
X-url: http://langtech.jrc.it/JRC-Acquis.html
X-url: http://langtech.jrc.it/#Publications
X-url: http://langtech.jrc.it
X-url: http://press.jrc.it/NewsExplorer
Nous avons le plaisir de vous communiquer la publication de notre
corpus.
JRC-Acquis : un grand corpus parallèle aligné en 21 langues;
téléchargeable gratuitement
TAILLE, FORMAT :
- 21 langues (les 20 langues officielles de lâUnion Européenne +
Roumain)
- Taille moyenne: 8,8 millions de mots par langue
- Format XML selon les recommandations TEI P4, encodage UTF-8
- Modulaire, chaque langue peut être téléchargée séparément
LANGUES
Allemand, anglais, danois, espagnol, estonien, finnois, français,
grec, hongrois, italien, letton, lituanien, maltais, néerlandais,
polonais, portugais, roumain, slovaque, slovène, suédois et tchèque
ALIGNEMENT DES PARAGRAPHES
- Alignement (au niveau des paragraphes) pour les 210 paires de langue
- Deux outils dâalignement différents: Vanilla et HunAlign
- Environ 270.000 alignements par pair de langues.
CLASSIFICATION
Ces textes ont été classifiés manuellement à lâaide du thésaurus
Eurovoc. Il sâagit dâenviron 6.000 âdescripteursâ (organisés dans une
structure hiérarchique), couvrant divers domaines
UTILISATION
- Disponible sur le site : http://langtech.jrc.it/JRC-Acquis.html
- Gratuit pour tout usage de recherche.
Pour plus de renseignement, lire lâarticle correspondant :
Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž
Erjavec, Dan TufiÅ, Dániel Varga (2006). 'The JRC-Acquis: A multilingual
aligned parallel corpus with 20+ languages'. Actes de la conférence LREC
2006. Gênes Italie 24-26 Mai 2006. Disponible Ã
http://langtech.jrc.it/#Publications.
CONTACTS
Ralf Steinberger (Ralf.Steinberger at jrc.it)
Commission Européenne â Centre Commun de Recherche (CCR - JRC)
IPSC - SeS - Language Technology
URL: http://langtech.jrc.it, http://press.jrc.it/NewsExplorer
T.P. 267, Via Fermi 1
21020 Ispra (VA), Italie
Tel: +39 0332 78-6271
Fax: +39 0332 78-5154
--
Bruno Pouliquen (Bruno.Pouliquen at jrc.it) http://langtech.jrc.it/
Language Technologies, IPSC Institute, European Commission
Joint Research Centre - TP 267 I-21020 Ispra (VA)
Tel: (+ 39) 0332 78 9309 Fax: (+39) 0332 78 9098
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listes.cines.fr/wws/arc/ln
http://listserv.linguistlist.org/archives/ln.html
La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list