These: Beatrice Arnulphy, Designations nominales d'evenements - Etude et extraction automatique dans les textes

Tue Oct 2 18:32:33 UTC 2012

Date: Sun, 30 Sep 2012 22:04:48 +0200
From: Béatrice Arnulphy <beatrice.arnulphy at limsi.fr>
Message-ID: <5068A5E0.1020108 at limsi.fr>

Bonjour,

J'ai le plaisir de vous annoncer ma soutenance de thèse intitulée
"Désignations nominales d'événements - Étude et extraction automatique
dans les textes".

La soutenance aura lieu le *mardi 2 octobre 2012 à 10h30* en salle de
conférences du LIMSI-CNRS (Bât 508 http://www.limsi.fr/Pratique/acces/,
Université Paris Sud, Orsay ; http://www.limsi.fr). Vous êtes
cordialement invités au pot qui suivra la soutenance.

*Le jury de soutenance* est composé de :
* Directeurs de thèse
  Anne Vilnat -- Professeur - LIMSI-CNRS, Université Paris-Sud
  Xavier Tannier -- MCF - LIMSI-CNRS, Université Paris-Sud
* Rapporteurs
  Laurence Danlos -- Alpage - Université Paris 7
  Patrice Bellot -- LSIS - Polytechnique, Université d'Aix-Marseille
* Examinateurs
  Sophie Rosset -- LIMSI-CNRS, Orsay
  Laura Calabrese -- MCF - Université Libre de Bruxelles
  Philippe Muller -- MCF en informatique - Université Paul Sabatier,
  Toulouse

*Résumé de thèse :*

Ma thèse a pour but l'étude des désignations nominales des événements
pour l'extraction automatique. Mes travaux s'inscrivent en traitement
automatique des langues, soit dans une démarche pluridisciplinaire qui
fait intervenir linguistique et informatique.

L'extraction d'information a pour but d'analyser des documents en
langage naturel et d'en extraire les informations utiles à une
application particulière. Dans ce but général, de nombreuses campagnes
d'extraction d'information ont été menées : pour chaque événement
considéré, la tâche de la campagne est d'extraire certaines informations
relatives (participants, dates, nombres, etc.). Dès le départ ces
challenges touchent de près aux entités nommées (éléments "notables" des
textes, comme les noms de personnes ou de lieu). Toutes ces informations
forment un ensemble autour de l'événement et ces travaux ne
s'intéressent pas aux mots utilisés pour décrire l'événement
(particulièrement lorsqu'il s'agit d'un nom). L'événement est vu comme
un tout englobant, comme la quantité et la qualité des informations qui
le composent.
Contrairement aux travaux en extraction d'informations générale, notre
intérêt principal est porté uniquement sur la manière dont sont nommés
les événements qui se produisent et particulièrement à la désignation
nominale utilisée. Pour nous, l'événement est ce qui arrive, ce qui vaut
la peine qu'on en parle. Les événements plus importants font l'objet
d'articles de presse ou apparaissent dans les manuels d'Histoire. Un
événement peut être évoqué par une description verbale ou nominale.

Dans cette thèse, nous avons réfléchi à la notion d'événement. Nous
avons observé et comparé les différents aspects présentés dans l'état de
l'art jusqu'à construire une définition de l'événement et une typologie
des événements en général qui conviennent dans le cadre de nos travaux
et pour les désignations nominales des événements. Nous avons aussi
dégagé de nos études sur corpus différents types de formation de ces
noms d'événements, dont nous montrons que chacun peut être ambigu à des
titres divers.

Pour toutes ces études, la composition d'un corpus annoté est une étape
indispensable, nous en avons donc profité pour élaborer un guide
d'annotation dédié aux désignations nominales d'événements.
Nous avons étudié l'importance et la qualité des lexiques existants pour
une application dans notre tâche d'extraction automatique. Nous avons
aussi, par des règles d'extraction, porté intérêt au contexte
d'apparition des noms pour en déterminer l'événementialité.
À la suite de ces études, nous avons extrait un lexique pondéré en
événementialité (dont la particularité est d'être dédié à l'extraction
des événements nominaux), qui rend compte du fait que certains noms sont
plus susceptibles que d'autres de représenter des événements. Utilisée
comme indice pour l'extraction des noms d'événements, cette pondération
permet d'extraire des noms qui ne sont pas présents dans les lexiques
standards existants. Enfin, au moyen de l'apprentissage automatique,
nous avons travaillé sur des traits d'apprentissage contextuels en
partie fondés sur la syntaxe pour extraire de noms d'événements.

Béatrice Arnulphy

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------