Job: Stage, Evaluation de ressources et traitements complementaires pour la reconnaissance d'entites nommees

Fri Mar 8 21:39:29 UTC 2013

Date: Fri, 8 Mar 2013 15:01:29 +0100
From: Damien Nouvel <damien.nouvel at inria.fr>
Message-ID: <CAHKNiVWdZZ8F8T-SexhnQnV0oQpTSxDLoyBpwDaZieh3aHd3wA at mail.gmail.com>

Proposition de stage : Évaluation de ressources et traitements
complémentaires pour la reconnaissance d'entités nommées

CONTEXTE

La reconnaissance automatique des entités nommées (personnes, lieux,
organisation, unités de temps, montants, etc.) est une tâche centrale
pour la recherche d'information. Dans ce cadre, les nombreux travaux
menés sur ce sujet au sien de l'équipe BDTLN du LI (université de Tours)
ont conduit à l'implémentation de deux systèmes :
- CasEN, orientés connaissances (transducteurs) [Friburger 2002]
- mXS, orientés données (motifs) [Nouvel 2012]

Ces deux systèmes sont en cours d'évaluation dans le cadre de la
campagne Etape (http://www.afcp-parole.org/etape.html en cours
d'adjudication). Ils reposent sur une base lexicale commune faite de
ressources construites semi-automatiquement [Tran & Maurel 2006], dont
Prolex ( http://www.cnrtl.fr/lexiques/prolex/). Dans la lignée des
travaux de [Bunescu & Pasca 2006] et [Charton & Torres-Moreno 2009],
nous avons développé un outil afin d'extraire automatiquement des
ressources lexicales à partir de Wikipedia. Enfin, des expériences
préliminaires ont été menées dans le cadre du projet Ancor
(http://tln.li.univ-tours.fr/Tln_Ancor.html) afin de déterminer les
interactions qui existent entre les les entités nommées et les
anaphores.

SUJET DE STAGE

Le stage proposé vise en premier lieu à déterminer les gains réalisés
par les deux systèmes lors de l'enrichissement des ressources
lexicales. Il s'agit donc de manipuler les divers outils et systèmes à
disposition et de réaliser des évaluations comparatives afin de
déterminer, dans le cadre d'Etape (émissions télévisuelles et
radiodiffusées), quelles ressources ont le plus intérêt à être
complétées, quelles configurations sont les plus avantageuses, quels
sont les avantages et les inconvénients de chaque approche.

De manière plus exploratoire, l'étudiant sera amené à approfondir nos
travaux sur les interactions entre reconnaissance d'entités nommées et
résolution d'anaphores. Il s'agira autant d'établir une base de travail
pour l'évaluation des systèmes de résolution de coréférences, que
d'étudier en quoi les mécanismes anaphoriques peuvent aider pour la
reconnaissance des entités nommées et/ou inversement.

CONDITIONS ET CANDIDATURE

Le candidat sélectionné devra disposer de solides compétences en
informatique (programmation Java et scripts Python / Shell) et avoir un
intérêt pour le traitement automatique des langues. Une attention
particulière sera portée aux capacités à mener des évaluation sur corpus
(outils d'évaluation, benchmarks, significativité). Des connaissances en
fouille de données (text mining) et/ou en paramétrage de systèmes à base
d'automates seront un plus.

Dates et durée : courant mars / début avril, pour 3 mois minimum
Lieu d'exercice : campus de Blois (antenne universitaire, 3 place
Jean-Jaurès)
Rémunération : maximale prévue selon la réglementation 436,05 € par mois
(assurée dans le cadre d’un projet industriel financé par la société
BAMSOO).

Merci d'envoyer un CV détaillé de vos activités passées, accompagné
d’une lettre de motivation et de vos relevés de notes des deux dernières
années d’études à :
- Nathalie Friburger nathalie.friburger at univ-tours.fr ,
- Damien Nouvel damien.nouvel at inria.fr ,
- Jean-Yves Antoine jean-yves.antoine at univ-tours.fr .

BIBLIOGRAPHIE

[Bunescu & Pasca 2006] Using Encyclopedic Knowledge for Named entity
Disambiguation. R.C. Bunescu M. Pasca. EACL (2006).
[Charton & Torres-Moreno 2009] Classification d'un contenu
encyclopédique en vue d'un étiquetage par entités nommées. E. Charton,
J.M. Torres-Moreno.  TALN (2009)
[Friburger 2002] Reconnaissance automatique des noms propres :
application à la classification automatique de textes
journalistiques. Nathalie Friburger. Thèse de doctorat (2002).
[Friburger & Maurel 2004] Finite-state transducer cascades to extract
named entities in texts. Nathalie Friburger and Denis Maurel. TCS:313
(2004).
[Nouvel 2012] Reconnaissance des entites nommees par exploration de
regles d'annotation. Damien Nouvel. Thèse de doctorat (2012).
[Tran & Maurel 2006] Prolexbase - Un dictionnaire relationnel
multilingue de noms propres. Mickäel Tran, Denis Maurel. TAL:47-3
(2006).

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------