Conf=?iso-8859-1?Q?=E9rence_de_Reiner_Konrad_le_30_mai_=E0_?=Paris

Jean-Louis Aroui jean-louis.aroui at UNIV-PARIS8.FR
Mon May 23 16:41:20 UTC 2011


L'UMR 7023 a le plaisir de vous convier, dans le cadre des séances de son
séminaire (http://www.umr7023.cnrs.fr/-Seminaire-de-l-UMR-7023,50-.html),

le lundi 30 mai 2011
10h00-12h00,
C.N.R.S., 59 rue Pouchet, 75017 Paris (métros : Guy Moquet ou Brochant,
ligne 13),  salle de conférences (rez-de-chaussée)

à une conférence de Reiner Konrad (Université de Hambourg)

intitulée

« Lemmatisation et mise en place d'une base de données lexicales. Le rôle
de l'iconicité dans la description lexicale de la langue des signes
allemande »

Résumé :
Pour créer un corpus linguistiques deux opérations sont fondamentales : la
tokenization (segmentation et normalisation) et la lemmatisation. Ces
annotations informatisées sont les données primaires sur lesquelles toute
analyse linguistique est basée. Dans les langues vocales avec écriture la
transcription orthographique représente la forme de l’occurrence et
renvoie à la fois à l’unité lexématique (UL). Celle-ci peut être
explicitée par l’opération de la lemmatisation. Pour la lemmatisation il
faut un dictionnaire ou une base de données lexicale qui liste toutes les
formes des mots. Pour identifier une UL dans les langues vocales, il
suffit de comparer les occurrences par rapport à leurs formes et leurs
significations.
Pour créer un corpus lemmatisé d’une langue des signes les difficultés
sont multiples. Sans écriture, il faut d’abord décider comment noter la
forme d’un signe. Les différents systèmes de notation ne sont pas
standardisés et n’ont pas une orthographie. Par conséquent, il est
difficile d’établir une relation univoque entre annotation et UL. Sans
ressource lexicale il faut dresser une liste des UL en parallèle avec la
transcription des données vidéo ce qui fait qu’il y a un va-et-vient entre
l’approche top-down (lemmatisation) et bottom-up (élargissement du
lexique). Pour arriver à une lemmatisation cohérente et fiable, elle doit
être supportée par un logiciel qui aligne les annotations, p. ex. les
gloses, dans la transcription avec les entrées de la base de données
lexicale.
L‘appariement des occurrences et des UL avec ses formes correspondantes
(token-type matching) suit les conventions de transcription qui sont,
elles-mêmes, basés sur des suppositions théoriques à priori. Avec
l’inventaire des symboles, les règles opératoires, le logiciel et la
structure de la base de données elles forment le système de transcription
qui est toujours une sorte de modelisation. Une question importante est si
l‘iconicité des signes trouve sa place dans ce modèle. Les recherches
lexicologiques et lexicographiques à l’Institut de la langue des signes
allemande (IDGS) de l’Université de Hamburg témoignent le rôle de
l’iconicité dans la création d’une base de données lexicales et d’un
corpus de référence lemmatisé qui est un des objectifs du projet à long
terme « Corpus de la DGS ».


-- 
Jean-Louis AROUI
Université Paris 8
UFR des Sciences du Langage
2, rue de la liberté
93200 Saint-Denis
FRANCE
http://www.umr7023.cnrs.fr/-Aroui-Jean-Louis-.html

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20110523/6291c244/attachment.htm>


More information about the Parislinguists mailing list