Sujet de these: Approches bayesiennes non supervisees pour l'interpretation du langage naturel, LORIA (Nancy)

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sat May 5 09:28:29 UTC 2012


Date: Thu, 03 May 2012 10:44:16 +0200
From: Christophe Cerisara <Christophe.Cerisara at loria.fr>
Message-ID: <4FA24560.8080206 at loria.fr>
X-url: http://www.adum.fr/as/ed/voirproposition.pl?langue=&site=IAEM&matricule_prop=3711


Appel à candidature pour un sujet de thèse (financée) en TAL

Titre: Approches bayésiennes non supervisées pour l'interprétation du
langage naturel

Candidater: 
http://www.adum.fr/as/ed/voirproposition.pl?langue=&site=IAEM&matricule_prop=3711

Lieu: LORIA (Nancy)

Financement : demande de contrat doctoral

Durée : trois ans (oct 2012-2015)

Encadrement : Christophe Cerisara (http://www.loria.fr/~cerisara/)

Contact: cerisara at loria dot fr

Les méthodes statistiques ont connu un grand succès depuis déjà de
nombreuses années en TALN et ont permis d’élaborer des systèmes
présentant à la fois d'excellentes performances et une robustesse accrue
dans de nombreuses étapes de la chaine de traitement du TALN.
Toutefois, le succès de ces approches d'apprentissage supervisé est
toujours tempéré par le coût important requis pour développer un nouveau
corpus dans un nouveau langage ou pour un nouveau type d'application.
Les techniques d'apprentissage non supervisé, qui découvrent sans l'aide
d'annotations humaines les structures sous-jacentes présentes dans les
corpus textuels, ont donc connu un essor important ces dernières années.
Mais malgré des performances plus que convaincantes dans plusieurs
tâches du TALN, et en particulier en étiquetage morphosyntaxique,
reconnaissances des entités nommées ou analyse en rôles sémantiques, les
résultats obtenus restent toujours inférieurs aux performances des
modèles supervisés.
Très récemment, de nouvelles voies de recherche visant à réintégrer des
connaissances linguistiques génériques, par exemple sous forme de
règles, dans les approches non supervisées, ont été proposées par
exemple pour l'analyse syntaxique dans quelques grands centres
internationaux du domaine.  Ces approches qui combinent connaissance et
inférence bayésienne présentent un intérêt particulier pour l’équipe
SYNALP, et nous avons commencé à développer des systèmes de ce type pour
l'analyse syntaxique et l'annotation en rôles sémantiques.
Le moteur de la découverte automatique de structures dans ces méthodes
est la prise en compte de priors tels que les processus de Dirichlet ou
de Pitman-Yor, qui combinés aux paramètres multinomiaux modélisant le
langage, contraignent les algorithmes d’inférence de type Monte-Carlo à
privilégier certaines distributions naturelles, comme les distributions
"creuses".
Pour satisfaire ces contraintes, les algorithmes d’échantillonnage
privilégient des classes de relations qui, lorsque le modèle est bien
construit comme par exemple dans le cas de la LDA, exhibent des
propriétés interprétables par un linguiste.  Toutefois, un certain
nombre de choix arbitraires sont toujours réalisés, par exemple dans les
guides d'annotation de corpus.  De tels choix ne peuvent être découverts
de manière purement automatique, et la prise en compte de contraintes
linguistiques lors de ce processus d’inférence est importante.
Le travail consistera donc a étudier et proposer différentes solutions
permettant de contraindre l’inférence non supervisée, et à implémenter
et valider sur des corpus anglais et français les approches proposées.

N'hésitez pas à me contacter (cerisara at loria dot fr) pour avoir plus
de renseignements et à candidater sur
http://www.adum.fr/as/ed/voirproposition.pl?langue=&site=IAEM&matricule_prop=3711

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list