Job: Stage Master 2, Developpement de ressources linguistiques pour l'extraction d'evenements, CEA-LIST
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Jan 13 21:17:37 UTC 2012
Date: Thu, 12 Jan 2012 15:16:27 +0100
From: Romaric Besançon <romaric.besancon at cea.fr>
Message-ID: <4F0EEB3B.3080309 at cea.fr>
Proposition de stage de Master 2 (6 mois)
Développement de ressources linguistiques pour l'extraction d'événements
dans le domaine financier
CEA LIST, Laboratoire Vision et Ingénierie des contenus, Nano-Innov
(Palaiseau)
Encadrants: Romaric Besançon et Nasredine Semmar
Le stage se situe dans le contexte de l'extraction d'information,
domaine dont l'objectif est d'identifier des événements ou faits dans
des textes, et de structurer les informations retenues. Le stage se
situe plus précisément dans le cadre d'un projet sur l'extraction
d'événements dans le domaine financier, pour des textes en langues
anglaise et arabe (une seule de ces langues ou les deux seront traitées
dans le cadre du stage selon les connaissances du stagiaire). La
spécification des événements à extraire est définie sous la forme d'une
ontologie. Les événements concernent par exemple les changements de
personnel dans une entreprise, les évolutions d'indicateurs financiers,
les mentions de transactions financières.
Le stage se situera dans le prolongement du travail déjà réalisé dans le
cadre de ce projet, et consistera à développer les ressources
linguistiques nécessaires pour la reconnaissance des événements.
Plus précisément, les événements sont reconnus en deux étapes:
- la reconnaissance des entités nommées relatives aux événements (par
exemple, les noms des entreprises ou des personnes concernées etc.),
ainsi que des autres entités spécifiques typées associées aux
événements (par exemple, les montants, les produits financiers etc.)
- l'association des différentes entités relatives à un même événement
dans une structure commune de formulaire (ou template) associant
chaque entité retenue à un rôle dans l'événement : par exemple, une
personne mentionnée est celle qui quitte un poste et une autre
personne est celle qui arrive dans le poste.
Les méthodes pour la reconnaissance des entités nommées et des
événements reposent sur l'utilisation de patrons lexico-syntaxiques
s'appuyant sur les résultats d'un outil d'analyse linguistique des
textes.
Le travail du stagiaire consistera à développer ce type de ressources
pour la reconnaissance des événements financiers, en s'appuyant sur le
système d'analyse linguistique existant et sur les modèles de patrons
existants. Ce travail pourra également porter sur l'amélioration
générale du traitement linguistique (analyse morpho-syntaxique et
syntaxique), si la reconnaissance des événements est limitée par la
qualité de l'analyse existante.
Profil
- niveau Master M2 informatique ou linguistique, connaissances en
traitement automatique des langues
- Maîtrise de l'anglais, la connaissance de la langue arabe est un plus
Le stage sera rémunéré et se déroulera au centre Nano-Innov du CEA, à
Palaiseau.
Les candidats intéressés par ce stage sont invités à prendre contact
avec Romaric Besançon (romaric.besancon at cea.fr) ou Nasredine Semmar
(nasredine.semmar at cea.fr) en envoyant un CV et une lettre de motivation.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list