Sujet de these: Proposition de these financee, lab. LaTTiCe-CNRS et INRA-MIG

Fri Apr 16 20:48:32 UTC 2010

Date: Fri, 16 Apr 2010 11:53:06 +0200
From: Thierry Poibeau <thierry.poibeau at ens.fr>
Message-Id: <1757A8CB-5FC8-407B-8DA0-FB97BFFCBF9F at ens.fr>
X-url: http://www.cam.ac.uk/cs/email/scanner/
X-url: http://www.lattice.cnrs.fr/poibeau/

*** Proposition de thèse financée ***

Le laboratoire LaTTiCe-CNRS, en collaboration avec l'équipe INRA-MIG,
propose une thèse financée sur 3 ans à partir d'octobre 2010.

- Thème de recherche

La recherche concerne le traitement automatique des langues (TAL). On
sait que les systèmes de TAL ont besoin de ressources adaptées aux
traitements visés ; des ressources existent pour la langue générale
mais le besoin de ressources spécialisées est de plus en plus évident
au fur et à mesure que des domaines spécialisés sont
abordés. L'analyse de textes journalistiques demande des ressources
très différentes de celles qui doivent être mises en oeuvre pour
l'analyse de textes du domaine juridique ou médical.

Dans ce contexte, l'adaptation purement manuelle de ressources
langagières est difficilement envisageable tant la tâche est lourde,
coûteuse et fastidieuse. Les besoins applicatifs sont, quant à eux,
changeants et évolutifs. C'est pourquoi l'acquisition de ressources
langagières à partir de corpus bruts est un domaine de recherche qui
s'est considérablement développé ces dernières années (voir
références).

- Sujet de la thèse

La thèse s'inscrit dans le contexte décrit supra : il s'agit
d'explorer des techniques d'acquisition de connaissances lexicales à
partir de textes, à des fins applicatives. L'analyse portera plus
particulièrement sur le prédicat verbal car celui-ci jour un rôle
essentiel pour les applications de TAL (repérage d'événements,
extraction d'information, etc.). On s'intéressera par exemple à
l'acquisition de cadres de sous-catégorisation et de restrictions de
sélections afin de déterminer des familles de verbes ayant un
comportement syntaxico-sémantique proche.

L'analyse portera sur des textes de langue générale et sur des langues
de spécialité (issus par exemple de la base de données Medline). La
thèse pourra être l'occasion d'étudier les aspects contrastifs (d'une
langue à l'autre, d'un domaine à l'autre). L'accent sera également mis
sur l'utilisabilité des méthodes développées : au moins une partie de
l'évaluation portera sur la validation de l'approche et sur la mesure
de la qualité des ressources produites pour une tâche donnée. On
participera le cas échéant à des campagnes d'évaluation pertinentes.

Les deux laboratoires partenaires (LaTTiCe-CNRS et INRA-MIG) ont déjà
une bonne expérience sur le domaine. La thèse se déroulera en outre
dans le cadre d'une collaboration internationale en cours sur le sujet
avec l'Université de Cambridge.

- Compétences demandées

Les compétences demandées pour cette thèse pluridisciplinaire sont
diverses. Les éléments suivants seront évalués en priorité :

- compétences en traitement des langues et/ou en linguistique
- compétences en informatique (perl, java)
- connaissances des techniques d'apprentissage artificiel
- qualité de la rédaction écrite, notamment en anglais
- connaissance de l'anglais
- intérêt pour les domaines de spécialité, notamment la biologie

La thèse aura lieu au laboratoire LaTTiCe (à Montrouge) et au
laboratoire INRA-MIG (Jouy-en-Josas), en banlieue sud de Paris. La
répartition du temps de travail entre les deux laboratoires sera
déterminée en fonction des besoins pour la thèse.

- Comment candidater ?

Envoyer dès que possible (et en tout état de cause avant le 30 avril)
un mail à Thierry Poibeau (prenom.nom at ens.fr) et à Claire Nedellec
(prenom.nom at jouy.inra.fr) en joignant un CV détaillé et une lettre de
motivation. Joindre un lien vers le mémoire de Master ou tout autre
mémoire rédigé récemment. Les entretiens et la sélection auront lieu
début mai.

Information additionnelles : https://www2.cnrs.fr/DRH/doctorants-10/
(Attention : un avis signé du directeur de Master est nécessaire pour
le dossier final)

Le financement de la thèse est assuré pour moitié par une allocation
CNRS et pour moitié par le projet Quaero, dans lequel est impliqué
l'équipe MIG de l'INRA. Le montant de l'allocation est de 1757
euros/bruts par mois. Le lancement de la thèse est encore soumis à la
signature d'un accord de partenariat entre le CNRS et l'INRA.

- Références 

* Alphonse E., Aubin S., Bessières P., Bisson G., Hamon T., Lagarrigue
  S., Manine A.-P., Nazarenko A., Nédellec C., Ould Abdel Vetah M.,
  Poibeau T. et Weissenbacher D. (2004). Event-based Information
  Extraction for the biomedical domain: the Caderige project. BioNLP
  (Biology and Natural language Processing, Coling 2004). Geneva.

* Faure D. et Poibeau T.  (2000). Extraction d'information utilisant
  Intex et des connaissances sémantiques apprises par Asium premières
  expérimentations. 12ème Congrès AFRIF-AFIA de Reconnaissance des
  Formes et Intelligence Artificielle (RFIA'2000), pp. 91—100.

* Messiant C., Korhonen A. et Poibeau T. (2008). LexSchem: A Large
  Subcategorization Lexicon for French Verbs. In Proceedings of the
  Language Resources and Evaluation Conference (LREC), Marrakech.

* Nédellec C., Nazarenko A. et Bossy R. (2009). Information
  Extraction. In: Ontology Handbook., Staab, S., Studer, R. (Eds.),
  Springer Verlag (2009).

------

Thierry Poibeau
LaTTiCe-CNRS
Ecole Normale Supérieure
1, rue Maurice Arnoux
92120 Montrouge

tel : +33 (0)1 58 07 66 21
fax : +33 (0)1 58 07 66 29

http://www.lattice.cnrs.fr/poibeau/

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------