[Corpora-List] Funded PhD position (France, LaTTiCe-CNRS et INRA-MIG)

Fri Apr 16 09:50:43 UTC 2010

Dear Corpora List member,

I have included below a call for a funded PhD position in France. The goal of the PhD is to develop lexical acquisition techniques for specific domains. A good command of French would be a plus but all relevant applications will be considered. 

Thierry Poibeau

------

Thierry Poibeau
LaTTiCe-CNRS
Ecole Normale Supérieure
1, rue Maurice Arnoux
92120 Montrouge

http://www.lattice.cnrs.fr/poibeau/

========================================

*** Proposition de thèse financée ***

Le laboratoire LaTTiCe-CNRS, en collaboration avec l'équipe INRA-MIG, propose une thèse financée sur 3 ans à partir d'octobre 2010. 

- Thème de recherche

La recherche concerne le traitement automatique des langues (TAL). On sait que les systèmes de TAL ont besoin de ressources adaptées aux traitements visés ; des ressources existent pour la langue générale mais le besoin de ressources spécialisées est de plus en plus évident au fur et à mesure que des domaines spécialisés sont abordés. L'analyse de textes journalistiques demande des ressources très différentes de celles qui doivent être mises en oeuvre pour l'analyse de textes du domaine juridique ou médical. 

Dans ce contexte, l'adaptation purement manuelle de ressources langagières est difficilement envisageable tant la tâche est lourde, coûteuse et fastidieuse. Les besoins applicatifs sont, quant à eux, changeants et évolutifs. C'est pourquoi l'acquisition de ressources langagières à partir de corpus bruts est un domaine de recherche qui s'est considérablement développé ces dernières années (voir références). 

- Sujet de la thèse

La thèse s'inscrit dans le contexte décrit supra : il s'agit d'explorer des techniques d'acquisition de connaissances lexicales à partir de textes, à des fins applicatives. L'analyse portera plus particulièrement sur le prédicat verbal car celui-ci jour un rôle essentiel pour les applications de TAL (repérage d'événements, extraction d'information, etc.). On s'intéressera par exemple à l'acquisition de cadres de sous-catégorisation et de restrictions de sélections afin de déterminer des familles de verbes ayant un comportement syntaxico-sémantique proche. 

L'analyse portera sur des textes de langue générale et sur des langues de spécialité (issus par exemple de la base de données Medline). La thèse pourra être l'occasion d'étudier les aspects contrastifs (d'une langue à l'autre, d'un domaine à l'autre). L'accent sera également mis sur l'utilisabilité des méthodes développées : au moins une partie de l'évaluation portera sur la validation de l'approche et sur la mesure de la qualité des ressources produites pour une tâche donnée. On participera le cas échéant à des campagnes d'évaluation pertinentes. 

Les deux laboratoires partenaires (LaTTiCe-CNRS et INRA-MIG) ont déjà une bonne expérience sur le domaine. La thèse se déroulera en outre dans le cadre d'une collaboration internationale en cours sur le sujet avec l'Université de Cambridge. 

- Compétences demandées

Les compétences demandées pour cette thèse pluridisciplinaire sont diverses. Les éléments suivants seront évalués en priorité :

- compétences en traitement des langues et/ou en linguistique
- compétences en informatique (perl, java)
- connaissances des techniques d'apprentissage artificiel
- qualité de la rédaction écrite, notamment en anglais
- connaissance de l'anglais
- intérêt pour les domaines de spécialité, notamment la biologie

La thèse aura lieu au laboratoire LaTTiCe (à Montrouge) et au laboratoire INRA-MIG (Jouy-en-Josas), en banlieue sud de Paris. La répartition du temps de travail entre les deux laboratoires sera déterminée en fonction des besoins pour la thèse. 

- Comment candidater ?

Envoyer dès que possible (et en tout état de cause avant le 30 avril) un mail à Thierry Poibeau (prenom.nom at ens.fr) et à Claire Nedellec (prenom.nom at jouy.inra.fr) en joignant un CV détaillé et une lettre de motivation. Joindre un lien vers le mémoire de Master ou tout autre mémoire rédigé récemment. Les entretiens et la sélection auront lieu début mai. 

Information additionnelles : https://www2.cnrs.fr/DRH/doctorants-10/
(Attention : un avis signé du directeur de Master est nécessaire pour le dossier final)

Le financement de la thèse est assuré pour moitié par une allocation CNRS et pour moitié par le projet Quaero, dans lequel est impliqué l'équipe MIG de l'INRA. Le montant de l'allocation est de 1757 euros/bruts par mois. Le lancement de la thèse est encore soumis à la signature d'un accord de partenariat entre le CNRS et l'INRA. 

- Références 

* Alphonse E., Aubin S., Bessières P., Bisson G., Hamon T., Lagarrigue S., Manine A.-P., Nazarenko A., Nédellec C., Ould Abdel Vetah M., Poibeau T. et Weissenbacher D. (2004). Event-based Information Extraction for the biomedical domain: the Caderige project. BioNLP (Biology and Natural language Processing, Coling 2004). Geneva. 

* Faure D. et Poibeau T.  (2000). Extraction d'information utilisant Intex et des connaissances sémantiques apprises par Asium premières expérimentations. 12ème Congrès AFRIF-AFIA de Reconnaissance des Formes et Intelligence Artificielle (RFIA'2000), pp. 91—100.

* Messiant C., Korhonen A. et Poibeau T. (2008). LexSchem: A Large Subcategorization Lexicon for French Verbs. In Proceedings of the Language Resources and Evaluation Conference (LREC), Marrakech.

* Nédellec C., Nazarenko A. et Bossy R. (2009). Information Extraction. In: Ontology Handbook., Staab, S., Studer, R. (Eds.), Springer Verlag (2009).

_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora