Ressources: Coopération entre ELDA et LDC

Alexis Nasr alexis.nasr at LINGUIST.JUSSIEU.FR
Thu Feb 28 12:31:37 UTC 2002


Coopération entre ELDA et LDC - Distribution de ressources linguistiques

Le projet Net-DC (Networking Data Centers, MLIS-5017), a pour
but d'améliorer l'infrastructure pour les ressources linguistiques, en
instaurant de nouveaux modes de coopération entre le Linguistic
Data Consortium (LDC) et  l'Agence européenne de distribution de
ressources linguistiques (ELDA). Dans le cadre de cette coopération,
LDC et ELDA ont le plaisir d'annoncer une action commune de
distribution de ressources linguistiques.

TED (Translanguage English Database)
référence ELRA: http://www.elda.fr/cata/speech/S0031.html
référence LDC: http://www.ldc.upenn.edu/Catalog/LDC2002S04.html)

La base de données TED (Translanguage English Database) est le
résultat des enregistrements des exposés oraux de la conférence
"EuroSpeech '93". Le nom même du corpus reflète l'important taux
des exposés donnés en anglais par des conférenciers dont la langue
maternelle n'est pas l'anglais. 224 présentations orales ont été
enregistrées, générant environ 75 heures de parole. Ces enregistrements
offrent un grand nombre de locuteurs, chacun parlant plusieurs variantes
de l'anglais, sur une période de temps relativement importante (environ
15 minutes de présentation et 5 minutes de discussion), et ce sur un
même thème. Cette version de TED (6 CD-ROM) comprend 188
présentations, la période de discussion n'étant pas incluse.
Cette base de données a été produite avec le soutien d'ELSNET.
Le texte associé à ce corpus est constitué des versions ASCII de
quelques 400 articles présentés dans les actes de la conférence et
préparations orales fournis par les auteurs, ainsi que 250 questionnaires
adressés aux intervenants.

Transcriptions de TED (Translanguage English Database)
référence ELRA : http://www.elda.fr/cata/speech/S0120.html
référence LDC : http://www.ldc.upenn.edu/Catalog/LDC2002T03.html)

Le corpus de transcriptions de TED (Translanguage English Database)
comprend les transcriptions de 39 des 188 présentations du corpus
TED (réf. ELRA : http://www.elda.fr/cata/speech/S0031.html ; réf LDC :
http://www.ldc.upenn.edu/Catalog/LDC2002S04.html) et réalisé à
Eurospeech'93 à Berlin. Les 39 transcriptions de cette publication sont
au format UTF (Universal Transcription Format) et ont été préparées par LDC.
Chaque fichier utf de la version transcrite a été validé et est en conformité
avec la DTD utf incluse. Les tables contenant les informations
démographiques des locuteurs et de référence croisée des noms de fichier
avec le corpus audio TED sont fournies.

Pour plus d'informations, veuillez contacter ELRA/ELDA ou LDC à:

ELRA/ELDA
55-57 rue Brillat-Savarin
F-75013 Paris, France
Tél: +33 01 43 13 33 33
Fax: +33 01 43 13 33 30
Email: mapelli at elda.fr
http://www.icp.grenet.fr/ELRA/home.html or http://www.elda.fr


LDC - Linguistic Data Consortium
3615 Market Street, Suite 200
PA 19104-2608 Philadelphia, USA
Tél: (215) 898-0464
Fax: (215) 573-2175
Email: ldc at ldc.cis.upenn.edu
http://www.ldc.upenn.edu
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list