Job: Stage M2, apprentissage multi-objectif pour les donnees textuelles

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sun Jan 20 11:12:09 UTC 2013


Date: Fri, 18 Jan 2013 09:10:46 +0100
From: Joseph Le Roux <leroux at univ-paris13.fr>
Message-ID: <m2622u7vy1.fsf at dyn213.lipn.univ-paris13.fr>


Sujet de stage M2 : apprentissage multi-objectif pour les données
textuelles
 =======================================================================

    De nombreuses applications en traitement automatique des langues et
    en extraction d'information utilisent les analyses syntaxiques des
    textes. Bien que les analyseurs syntaxiques modernes, appris sur
    corpus, atteignent des performances globales tout à fait
    satisfaisantes, on remarque souvent que les informations utiles aux
    applications sont mal analysées.

    Pour pallier ce problème, il peut être intéressant d'apprendre un
    analyseur pour une application précise, par exemple la traduction
    automatique, les systèmes de questions/réponses, ou l'extraction de
    relations/événements dans des textes.

    Récemment, Hall et al. [TDPJOMO] ont proposé une méthode
    d'apprentissage en ligne (de type perceptron) pour intégrer des
    fonctions de perte non plus strictement syntaxiques mais qui portent
    plus librement sur des structures induites par les structures
    syntaxiques, notamment les structures produites par les applications
    en aval.

    Le but de ce stage est d'étudier cette méthode, l'apprentissage
    multi-objectif, de la généraliser à d'autres algorithmes
    d'apprentissage en ligne, de l'implanter dans un analyseur standard
    -- en l'occurrence [MSTparser] -- et de l'appliquer à la tâche
    d'extraction de relations/événements sur des textes biomédicaux.

    profil recherché: Nous cherchons un candidat :
      - de niveau M2
      - compétent  en java et python
      - ayant des notions d'apprentissage automatique
      - avec un intérêt pour le traitement automatique des langues

    détails: Dans un premier temps, l'étudiant devra se familiariser
    avec :
      - la notion d'extraction de relations
      - la chaîne de traitement [TEES] qui a gagné le challenge BioNLP
        2009
      - le corpus GENIA sur lequel le travail portera
      - l'analyseur MSTParser

      Dans la suite du stage, il devra d'abord évaluer la chaîne
      d'extraction lorsqu'elle est utilisée avec le MSTParser sur une
      grammaire apprise indépendamment de la tâche. Il s'agira ensuite
      d'implanter un algorithme d'apprentissage multi-objectif de la
      grammaire et d'évaluer son incidence sur les performances du
      système.

    contexte: Équipe RCLN du LIPN, Université Paris 13.

    durée: 6 mois

    contact: Contacter Joseph Le Roux (leroux at univ-paris13.fr) et
             Antoine Rozenknop (antoine.rozenknop at lipn.univ-paris13.fr)
             en joignant un CV au mail.

    divers: Stage rémunéré dans le cadre d'une opération du labex
            [EFL]. Ce stage est susceptible de se prolonger par une
            thèse.

[TDPJOMO]: http://www.aclweb.org/anthology/D/D11/D11-1138.pdf
[MSTparser]: http://sourceforge.net/projects/mstparser/
[TEES]: https://github.com/jbjorne/TEES
[EFL]: http://www.labex-efl.org/

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list