Sujet de these: Methodes d'adaptation d'un systeme d'extraction d'information, CEA LIST/LVIC, Saclay

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Jun 1 19:49:16 UTC 2012


Date: Fri, 1 Jun 2012 09:50:19 +0000
From: FERRET Olivier 174579 <olivier.ferret at cea.fr>
Message-ID: <97E651D22799554F8E83493187BE08C902B5FFA6 at EXDAG0-B3.intra.cea.fr>
X-url: http://www-instn.cea.fr/-Theses-Financement-Candidatures-.html?lang=fr
X-url: http://www-instn.cea.fr/spip.php?page=Publication_Sujet&idSujet=7697&lang=fr&langue=fr&id_rubrique=70

Offre déjà parue mais toujours ouverte.

Nous recherchons des étudiants intéressés par une thèse dans le domaine
de l'extraction d'information et désireux de candidater à un financement
de thèse CEA CTBU
(cf. http://www-instn.cea.fr/-Theses-Financement-Candidatures-.html?lang=fr
pour les conditions à remplir par les candidats et les modalités d'une
telle candidature).

L'objectif de la thèse est plus précisément d'étudier les méthodes
permettant d'adapter le plus rapidement possible un système d'extraction
d'information défini dans un domaine donné à un autre domaine, voire une
autre langue.

CONTEXTE 

La thèse se situe dans le contexte de l'extraction d'information,
domaine dont l'objectif est d'identifier des événements ou des faits
dans des textes et de structurer les informations retenues. Le plus
souvent, cet objectif prend la forme d'une tâche de remplissage de
formulaires (templates) prédéfinis à partir de textes. Ainsi, pour un
formulaire centré sur les événements sismiques, l'objectif est pour
chaque tremblement de terre détecté dans un texte de localiser des
informations telles que sa localisation, sa magnitude, sa date et son
heure. Un extrait de texte tel que

"En visite sur place, le vice-premier ministre Besir Atalay a confirmé
que 25 bâtiments s'étaient effondrés à la suite du séisme d'une
magnitude de 5,6. Il s'est produit à 20h23 mercredi soir, avec un
épicentre localisé dans le district d'Edremit, à 17 kilomètres au sud de
Van."

doit ainsi permettre à un système d'extraction d'information de remplir
un formulaire typique sur les tremblements de terre qui aurait la forme
suivante :

FORMULAIRE « TREMBLEMENT DE TERRE »
lieu : district d'Edremit, à 17 kilomètres au sud de Van
magniture : 5,6
heure : 20h23
date : mercredi soir

Sa mise en oeuvre demande néanmoins des moyens humains importants, que
ce système soit construit sur la base de règles élaborées manuellement
ou bien par apprentissage, à partir d'un corpus annoté lui-même
manuellement. Un des défis actuels dans le domaine de l'extraction
d'information, comme pour beaucoup d'autres applications liées au
traitement automatique des langues, est donc de développer des méthodes
permettant de réduire, dans la mesure du possible, le coût et le temps
de développement de systèmes pour un contexte applicatif donné (domaine,
type d'information à extraire et langue).

OBJECTIFS DE LA THESE

La thèse se propose d'aborder la problématique de l'adaptation à un
nouveau domaine selon trois axes, dans le prolongement des travaux déjà
réalisés au laboratoire LVIC :

- le développement de processus d'extraction d'information
  génériques. L'idée sous-jacente est de limiter autant que possible
  l'utilisation d'heuristiques propres aux domaines considérés,
  utilisation souvent efficace mais dont l'absence de généricité pose
  problème pour la transposition d'un domaine à un autre. Cette
  amélioration de la généricité des processus d'extraction, initiée dans
  (Jean-Louis et al., 2011a), passe en particulier par le recours à des
  analyses de nature discursive ;

- la minimisation de la dépendance vis-à-vis d'un domaine des modèles
  construits par apprentissage pour implémenter les processus
  d'extraction. Cette minimisation, elle aussi initiée dans (Jean-Louis
  et al., 2011a), est obtenue notamment par l'utilisation de
  caractéristiques excluant le vocabulaire spécifique d'un
  domaine. L'objectif dans ce cadre est de compenser la perte de
  performance qui résulte le plus souvent de cette restriction par une
  certaine stabilité des résultats d'un domaine à un autre ;

- l'utilisation d'approches semi-supervisées qui, à l'instar de la
  supervision distante, permettent de définir l'adaptation à un nouveau
  domaine par la donnée d'exemples de structures à extraire liées à ce
  domaine (relations ou templates) plutôt que par l'annotation de
  corpus. À la suite de (Jean-Louis et al., 2011b), l'idée est ici de
  conjuguer la projection de ces structures dans des corpus
  caractéristiques du domaine cible et l'utilisation de techniques
  d'extraction génériques telles que celles développées par exemple dans
  (Wang et al., 2011) pour construire des exemples annotés pour ce
  domaine.

Le laboratoire LVIC du CEA LIST dispose d'une plate-forme modulaire de
traitement des langues, LIMA, permettant de réaliser une analyse
linguistique d'un texte allant jusqu'au niveau syntaxique et intégrant
certaines analyses sémantiques et discursives. Le doctorant réalisera
son travail en s'appuyant sur cette plate-forme et bénéficiera des
travaux en extraction d'information déjà réalisés au sein du
laboratoire, dans plusieurs domaines (domaines des événements sismiques
et de la finance).

 Ludovic Jean-Louis, Romaric Besançon and Olivier Ferret. 2011a. Text
 Segmentation and Graph-based Method for Template Filling in Information
 Extraction. 5th International Joint Conference on Natural Language
 Processing (IJCNLP), Chiang Mai, Thailand.

 Ludovic Jean-Louis, Romaric Besançon, Olivier Ferret and Adrien
 Durand. 2011b. A weakly supervised approach for large scale relation
 extraction. 3rd International Joint Conference on Knowledge Discovery
 and Information Retrieval (KDIR 2011), Paris, France.

 Wei Wang, Romaric Besançon, Olivier Ferret and Brgitte
 Grau. 2011. Filtering and Clustering Relations for Unsupervised
 Information Extraction in Open Domain. 20th ACM Conference on
 Information and Knowledge Management (CIKM), Glasgow, UK.

COMPETENCES REQUISES
   - niveau M2 recherche (ou ingénieur) en Informatique avec une
     spécialisation en Traitement Automatique des Langues

   - familiarité avec les méthodes d'apprentissage statistique

   - langage C++ ainsi qu'un langage de script de type Perl ou Python ;
     système d'exploitation Linux

La thèse sera rémunérée selon les barèmes du CEA et se déroulera au sein
du Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA LIST,
situé dans le centre NanoInnov, sur le plateau de Saclay, à proximité de
l'école Polytechnique.

Les candidats intéressés par ce sujet de thèse sont invités à prendre
contact rapidement avec Olivier Ferret (olivier.ferret__.cea.fr) et
Romaric Besançon (romaric.besancon__.cea.fr) en envoyant un CV détaillé
et une lettre de motivation.

Ce sujet de thèse est également référencé au niveau du site Web du CEA à
l'adresse :

http://www-instn.cea.fr/spip.php?page=Publication_Sujet&idSujet=7697&lang=fr&langue=fr&id_rubrique=70

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list