Job: Stage M2, apprentissage multi-objectif pour les donnees textuelles
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sun Jan 20 11:12:09 UTC 2013
Date: Fri, 18 Jan 2013 09:10:46 +0100
From: Joseph Le Roux <leroux at univ-paris13.fr>
Message-ID: <m2622u7vy1.fsf at dyn213.lipn.univ-paris13.fr>
Sujet de stage M2 : apprentissage multi-objectif pour les données
textuelles
=======================================================================
De nombreuses applications en traitement automatique des langues et
en extraction d'information utilisent les analyses syntaxiques des
textes. Bien que les analyseurs syntaxiques modernes, appris sur
corpus, atteignent des performances globales tout à fait
satisfaisantes, on remarque souvent que les informations utiles aux
applications sont mal analysées.
Pour pallier ce problème, il peut être intéressant d'apprendre un
analyseur pour une application précise, par exemple la traduction
automatique, les systèmes de questions/réponses, ou l'extraction de
relations/événements dans des textes.
Récemment, Hall et al. [TDPJOMO] ont proposé une méthode
d'apprentissage en ligne (de type perceptron) pour intégrer des
fonctions de perte non plus strictement syntaxiques mais qui portent
plus librement sur des structures induites par les structures
syntaxiques, notamment les structures produites par les applications
en aval.
Le but de ce stage est d'étudier cette méthode, l'apprentissage
multi-objectif, de la généraliser à d'autres algorithmes
d'apprentissage en ligne, de l'implanter dans un analyseur standard
-- en l'occurrence [MSTparser] -- et de l'appliquer à la tâche
d'extraction de relations/événements sur des textes biomédicaux.
profil recherché: Nous cherchons un candidat :
- de niveau M2
- compétent en java et python
- ayant des notions d'apprentissage automatique
- avec un intérêt pour le traitement automatique des langues
détails: Dans un premier temps, l'étudiant devra se familiariser
avec :
- la notion d'extraction de relations
- la chaîne de traitement [TEES] qui a gagné le challenge BioNLP
2009
- le corpus GENIA sur lequel le travail portera
- l'analyseur MSTParser
Dans la suite du stage, il devra d'abord évaluer la chaîne
d'extraction lorsqu'elle est utilisée avec le MSTParser sur une
grammaire apprise indépendamment de la tâche. Il s'agira ensuite
d'implanter un algorithme d'apprentissage multi-objectif de la
grammaire et d'évaluer son incidence sur les performances du
système.
contexte: Équipe RCLN du LIPN, Université Paris 13.
durée: 6 mois
contact: Contacter Joseph Le Roux (leroux at univ-paris13.fr) et
Antoine Rozenknop (antoine.rozenknop at lipn.univ-paris13.fr)
en joignant un CV au mail.
divers: Stage rémunéré dans le cadre d'une opération du labex
[EFL]. Ce stage est susceptible de se prolonger par une
thèse.
[TDPJOMO]: http://www.aclweb.org/anthology/D/D11/D11-1138.pdf
[MSTparser]: http://sourceforge.net/projects/mstparser/
[TEES]: https://github.com/jbjorne/TEES
[EFL]: http://www.labex-efl.org/
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list