Conf=?iso-8859-1?Q?=E9rence_de_Reiner_Konrad_le_30_mai_=E0_?=Paris
Jean-Louis Aroui
jean-louis.aroui at UNIV-PARIS8.FR
Mon May 23 16:41:20 UTC 2011
L'UMR 7023 a le plaisir de vous convier, dans le cadre des séances de son
séminaire (http://www.umr7023.cnrs.fr/-Seminaire-de-l-UMR-7023,50-.html),
le lundi 30 mai 2011
10h00-12h00,
C.N.R.S., 59 rue Pouchet, 75017 Paris (métros : Guy Moquet ou Brochant,
ligne 13), salle de conférences (rez-de-chaussée)
à une conférence de Reiner Konrad (Université de Hambourg)
intitulée
« Lemmatisation et mise en place d'une base de données lexicales. Le rôle
de l'iconicité dans la description lexicale de la langue des signes
allemande »
Résumé :
Pour créer un corpus linguistiques deux opérations sont fondamentales : la
tokenization (segmentation et normalisation) et la lemmatisation. Ces
annotations informatisées sont les données primaires sur lesquelles toute
analyse linguistique est basée. Dans les langues vocales avec écriture la
transcription orthographique représente la forme de loccurrence et
renvoie à la fois à lunité lexématique (UL). Celle-ci peut être
explicitée par lopération de la lemmatisation. Pour la lemmatisation il
faut un dictionnaire ou une base de données lexicale qui liste toutes les
formes des mots. Pour identifier une UL dans les langues vocales, il
suffit de comparer les occurrences par rapport à leurs formes et leurs
significations.
Pour créer un corpus lemmatisé dune langue des signes les difficultés
sont multiples. Sans écriture, il faut dabord décider comment noter la
forme dun signe. Les différents systèmes de notation ne sont pas
standardisés et nont pas une orthographie. Par conséquent, il est
difficile détablir une relation univoque entre annotation et UL. Sans
ressource lexicale il faut dresser une liste des UL en parallèle avec la
transcription des données vidéo ce qui fait quil y a un va-et-vient entre
lapproche top-down (lemmatisation) et bottom-up (élargissement du
lexique). Pour arriver à une lemmatisation cohérente et fiable, elle doit
être supportée par un logiciel qui aligne les annotations, p. ex. les
gloses, dans la transcription avec les entrées de la base de données
lexicale.
Lappariement des occurrences et des UL avec ses formes correspondantes
(token-type matching) suit les conventions de transcription qui sont,
elles-mêmes, basés sur des suppositions théoriques à priori. Avec
linventaire des symboles, les règles opératoires, le logiciel et la
structure de la base de données elles forment le système de transcription
qui est toujours une sorte de modelisation. Une question importante est si
liconicité des signes trouve sa place dans ce modèle. Les recherches
lexicologiques et lexicographiques à lInstitut de la langue des signes
allemande (IDGS) de lUniversité de Hamburg témoignent le rôle de
liconicité dans la création dune base de données lexicales et dun
corpus de référence lemmatisé qui est un des objectifs du projet à long
terme « Corpus de la DGS ».
--
Jean-Louis AROUI
Université Paris 8
UFR des Sciences du Langage
2, rue de la liberté
93200 Saint-Denis
FRANCE
http://www.umr7023.cnrs.fr/-Aroui-Jean-Louis-.html
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20110523/6291c244/attachment.htm>
More information about the Parislinguists
mailing list