Job: Stage Master 2, Developpement de ressources linguistiques pour l'extraction d'evenements, CEA-LIST

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Jan 13 21:17:37 UTC 2012


Date: Thu, 12 Jan 2012 15:16:27 +0100
From: Romaric Besançon <romaric.besancon at cea.fr>
Message-ID: <4F0EEB3B.3080309 at cea.fr>


Proposition de stage de Master 2 (6 mois)

Développement de ressources linguistiques pour l'extraction d'événements
dans le domaine financier

CEA LIST, Laboratoire Vision et Ingénierie des contenus, Nano-Innov
(Palaiseau)

Encadrants: Romaric Besançon et Nasredine Semmar

Le stage se situe dans le contexte de l'extraction d'information,
domaine dont l'objectif est d'identifier des événements ou faits dans
des textes, et de structurer les informations retenues. Le stage se
situe plus précisément dans le cadre d'un projet sur l'extraction
d'événements dans le domaine financier, pour des textes en langues
anglaise et arabe (une seule de ces langues ou les deux seront traitées
dans le cadre du stage selon les connaissances du stagiaire). La
spécification des événements à extraire est définie sous la forme d'une
ontologie. Les événements concernent par exemple les changements de
personnel dans une entreprise, les évolutions d'indicateurs financiers,
les mentions de transactions financières.

Le stage se situera dans le prolongement du travail déjà réalisé dans le
cadre de ce projet, et consistera à développer les ressources
linguistiques nécessaires pour la reconnaissance des événements.

Plus précisément, les événements sont reconnus en deux étapes:

- la reconnaissance des entités nommées relatives aux événements (par
  exemple, les noms des entreprises ou des personnes concernées etc.),
  ainsi que des autres entités spécifiques typées associées aux
  événements (par exemple, les montants, les produits financiers etc.)

- l'association des différentes entités relatives à un même événement
  dans une structure commune de formulaire (ou template) associant
  chaque entité retenue à un rôle dans l'événement : par exemple, une
  personne mentionnée est celle qui quitte un poste et une autre
  personne est celle qui arrive dans le poste.

Les méthodes pour la reconnaissance des entités nommées et des
événements reposent sur l'utilisation de patrons lexico-syntaxiques
s'appuyant sur les résultats d'un outil d'analyse linguistique des
textes.
Le travail du stagiaire consistera à développer ce type de ressources
pour la reconnaissance des événements financiers, en s'appuyant sur le
système d'analyse linguistique existant et sur les modèles de patrons
existants. Ce travail pourra également porter sur l'amélioration
générale du traitement linguistique (analyse morpho-syntaxique et
syntaxique), si la reconnaissance des événements est limitée par la
qualité de l'analyse existante.

Profil

- niveau Master M2 informatique ou linguistique, connaissances en
  traitement automatique des langues

- Maîtrise de l'anglais, la connaissance de la langue arabe est un plus

Le stage sera rémunéré et se déroulera au centre Nano-Innov du CEA, à
Palaiseau.

Les candidats intéressés par ce stage sont invités à prendre contact
avec Romaric Besançon (romaric.besancon at cea.fr) ou Nasredine Semmar
(nasredine.semmar at cea.fr) en envoyant un CV et une lettre de motivation.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list