Seminaire: INFOLINGU, Myriam RAKHO, 12 decembre 2011, Universite Marne-la-Vallee
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sat Dec 10 09:44:49 UTC 2011
Date: Wed, 7 Dec 2011 17:12:37 +0100
From: Myriam RAKHO <rakho.myriam at gmail.com>
Message-ID: <CAOY-MwsUNv0ZoOfxYB8v55Bh=+BogNcqQkZH6bZ7TyinT0CauQ at mail.gmail.com>
************************************************************************
INFOLINGU
Le séminaire de l'équipe Informatique Linguistique
du Laboratoire d'Informatique Gaspard Monge (LIGM)
Université Paris-Est Marne-la-Vallée
************************************************************************
Date : *Le Lundi 12 décembre 2011 à 10h30*
Lieu : Université Paris-Est Marne-la-Vallée
Bâtiment Copernic, 4ème étage, salle de séminaires 4B08R
Toute personne intéressée est la bienvenue.
************************************************************************
------------------------------------------------------------------------
Intervenant :
------------------------------------------------------------------------
*Myriam RAKHO* (LIGM, Université Marne-la-Vallée)
------------------------------------------------------------------------
Titre de la présentation :
------------------------------------------------------------------------
* Un corpus de verbes polysémiques annoté sémantiquement avec le
Lexique-Grammaire*
------------------------------------------------------------------------
Résumé :
------------------------------------------------------------------------
La désambiguïsation sémantique des mots polysémiques (mots qui possèdent
la qualité d'avoir plusieurs sens possibles) consiste à assigner à l'un
de ces mots dans un contexte donné (phrase, paragraphe) celui de ses
sens qu'il instancie. Il s'agit, par exemple pour le verbe
*comprendre*, de reconnaître automatiquement la phrase *'Le principe de
précaution ne comprend pas la politisation de la science'* comme une
instance du sens “1 Contenir, renfermer en soi” et la phrase '* Vous *
*devez comprendre que nous ne vous laisserons pas faire cela*' comme une
instance du sens “ 2 Se rendre compte de, que”. Dans le cadre
multilingue, les différentes traductions possibles des mots dans une
langue cible donnée sont utilisées pour représenter l'inventaire de
leurs sens. Si la langue cible est l'anglais, le verbe '*comprendre*' a
donc pour étiquettes de sens les verbes *understand*, *realise*, *see*,
*gather*, *grasp*, *sympathise*, * appreciate*, *include*, *involve*,
*imply*, etc.. L'un des inconvénients de cette approche provient du fait
que la correspondance entre les sens d'un mot polysémique et leurs
équivalents en langue cible est rarement biunivoque. Un même sens peut
être traduit par plusieurs équivalents en langue cible et, inversement,
un même équivalent en langue cible peut traduire plusieurs sens d'un
mot. Jusqu'à présent, la solution à ce problème consistait à découper
l'ensemble des traductions possibles d'un mot en sous-ensembles, chacun
correspondant à l'un de ses sens. Par exemple, le sens (1) du verbe '*
comprendre*' serait associé à la classe {*involve, imply, include*}
alors que le sens (2) serait associé à la classe {*understand, realise,
see, gather, grasp*}. Nous proposons une nouvelle forme d'étiquettes de
sens : les entrées des mots dans les tables du Lexique-Grammaire. Le
Lexique-Grammaire (LG) (Gross, 1975; Boons et al., 1976; Guillet et
Leclère, 1992; Leclère, 2004) est un lexique du français dans lequel les
différents sens possibles des mots sont décrits en termes de propriétés
lexicales, syntaxiques et sémantiques : un mot polysémique a autant
d'entrées dans les tables du Lexique-Grammaire qu'il a de sens
possibles. Notre étude porte sur 20 verbes polysémiques du français
sélectionnés lors de la campagne ARCADE pour l'évaluation des systèmes
d'alignement de textes multilingues et utilisés lors des campagnes
Senseval/Romanseval pour l'évaluation des systèmes de désambiguïsation
sémantique. Pour chacun de ces verbes, nous avons extrait du corpus
multilingue EuroParl l'ensemble des contextes en français dans lesquels
il apparaît ainsi que leur traduction en anglais. Nous avons ensuite
associé quatre étiquettes de sens à chacun de ces contextes : la
traduction du verbe polysémique en question dans la version en anglais
du contexte et l'entrée du verbe dans le Lexique-Grammaire qu'il
représente, une “lexie” de la forme entrée_dans_le_LG#traduction (le
résultat de la concaténation des deux premières étiquettes de sens) et
une classe de lexies (l'ensemble des lexies qui sont associées à une
même entrée du mot dans le Lexique-Grammaire. Nous présenterons ce
corpus ainsi que les premiers résultats de nos expériences en
désambiguïsation sémantique.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list