Sujet de these: Analyse syntaxique des unites polylexicales, These en informatique, Universite de Tours

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue May 7 19:44:36 UTC 2013


Date: Fri, 03 May 2013 16:37:49 +0200
From: Agata Savary <agata.savary at univ-tours.fr>
Message-ID: <5183CBBD.9080704 at univ-tours.fr>
X-url: http://www.cost.eu/domains\_actions/ict/Actions/IC1207(.


**Attention**: le contact avec les encadrants doit être pris très
rapidement, la première version du dossier est à soumettre pour le 14
mai.

******************
**Sujet de thèse**
Analyse syntaxique des unités polylexicales

***********************
**Encadrants de thèse**
Directeur : Denis Maurel (LI, Université de Tours)
Co-encadrants : Agata Savary (LI, Université de Tours), Yannick
Parmentier (LIFO, Université d'Orléans)
Unité de recherche: Laboratoire d'informatique (LI), Université François
Rabelais Tours
Equipe : Bases de Données et Traitement de Langues Naturelles
Axe: Traitement des Langues Naturelles
Financement : bourse ministérielle

************************
**Personne à contacter**
agata.savary at univ-tours.fr

***********
**Dossier**
- Lettre de motivation
- CV
- Copie des relevés de notes (licence, master)

**********************
**Enjeu scientifique**

Cette thèse s'intéresse plus particulièrement aux *expressions
polylexicales* (EP) figées ou semi-figées (en anglais: *Multi-Word
Expressions*, MWEs), telles que "pomme de terre", "prendre le taureau
par les cornes", "être à la hauteur de quelque chose", "ne pas voir plus
loin que le bout de son nez", etc. Ces expressions, bien qu'au centre
d'une longue tradition d'études linguistiques, constituent aujourd'hui
l'un des freins majeurs au développement d'applications de traitement de
la langue qui soient à la fois robustes et précises (Sag et al 2002).

Les expressions polylexicales [Rayson et al., 2010] sont omniprésentes
dans les corpus textuels et oraux. Elles peuvent recouvrir jusqu'à 40\%
de tous les mots d'un texte, mais elles sont difficiles à reconnaître, à
comprendre et à traduire par les outils actuels du TAL. L'une des
difficultés majeures réside dans les propriétés très hétérogènes des EP,
et cela à différents niveaux de traitement linguistique: segmentation,
lexique, syntaxe, sémantique, etc. Ceci conduit à une fragmentation des
connaissances sur les EP. Par exemple, les lexiques d'EP - telles que
noms composés [Gralinski et al 2010], noms propres polylexicaux [Tran
and Maurel, 2006], termes spécialisés [Savary et al., 2012],
dictionnaires de valences, lexiques-grammaires [Tolone and Sagot, 2011],
etc. - parfois de large couverture, sont souvent créés sans lien
explicite avec des formalismes grammaticaux [Savary, 2008]. De ce fait
l'exploitation de ces ressources précieuses, par exemple dans l'analyse
syntaxique automatique (parsing), est souvent difficile. D'autre part,
les grammaires existantes prennent rarement en compte les EP, même si
les formalismes grammaticaux associés (HPSG, LFG, TAG, CCG, grammaires
de dépendance, etc.) incluent des mécanismes pouvant permettre la
représentation de telles expressions.


**********************
**Projet de la thèse**

Cette thèse vise à élargir les connaissances des EP, pour pouvoir à
terme surmonter les difficultés mentionnées plus haut. Pour cela, elle
se placera à l'interface entre le lexique et la grammaire, et de
proposer des méthodes hybrides de représentation et de traitement des
EP: guidées à la fois par les connaissances (descriptions élaborées par
les linguistes) et par les données (corpus annotés). Nous allons
notamment nous intéresser aux questions suivantes:

- Comment exprimer les propriétés à la fois figées (nécessitant une
  description lexicale) et prévisibles (exprimables par une grammaire)
  des EP en plusieurs langues (le français, le polonais, l'anglais ou
  d'autres langues connues par le candidat) [Grégoire, 2010] ?

- En particulier, comment représenter les phénomènes pertinents pour
  l'analyse syntaxique (accord, discontinuité, ordre de mots variable,
  etc.) ?

- Comment structurer les lexiques des EP afin de les rendre utilisables
  par différents formalismes grammaticaux ?

- Comment intégrer de tels lexiques dans un système d'analyse syntaxique
  probabiliste [Nivre and Nilsson, 2004, Constant et al., 2012] ?

La progression de cette thèse pourra s'organiser comme suit: dans un
premier temps, nous envisagerons la création ou l'adaptation de
ressources lexicales d'EP pour un emploi par une grammaire. Suivra la
conception d'un formalisme lexical abstrait (par exemple sous forme
d'une méta-grammaire [Duchier et al., 2011b], [Crabbé et al., 2013]) qui
permettrait la description des propriétés hétérogènes des EP, compilable
vers différents formalismes grammaticaux. Son utilisabilité pour au
moins deux formalismes (par exemple TAG et LFG), ainsi que pour
l'analyse probabiliste, sera évaluée. Des prolongations possibles
incluent:

- l'expression de la sémantique des EP,
- la description des EP dans des formalismes grammaticaux novateurs tel
  que les grammaires de propriétés [Duchier et al., 2011a].


**************************
**Contexte international**

Cette thèse sera placée au centre de *action européene PARSEME* (PARsing
and Multi-word Expressions), récemment sélectionnée dans le cadre du
programme *COST*
(http://www.cost.eu/domains\_actions/ict/Actions/IC1207(. Il s'agit
d'une initiative qui rassemble un consortium de 25 pays européens et
deux pays hors Europe (USA et Brésil) autour des verrous scientifiques
liés au traitement automatique des expressions polylexicales. Les
laboratoires LI et LIFO comptent parmi les initiateurs de cette action,
qui a débuté au mois de mars 2013. Le doctorant encadré sur le sujet
présenté ici pourra bénéficier de soutiens financiers spécifiques pour
les déplacements à des réunions de travail de l'action, des missions de
courte durée dans différents pays partenaires, des écoles d'été ou
encore des conférences. Des liens particulièrement forts pourront être
noués avec le Laboratoire d'Informatique de l'Académie Polonaise des
Sciences à Varsovie (IPIPAN).

**************
**Références**

Constant, M., Sigogne, A., and Watrin, P. (2012). Discriminative
strategies to integrate multiword expression recognition and parsing. In
Proceedings of the 50th Annual Meeting of the Association for
Computational Linguistics: Long Papers - Volume 1, ACL’12, pages
204–212, Stroudsburg, PA, USA. Association for Computational
Linguistics.

Crabbé, B., Duchier, D., Gardent, C., Le Roux, J., and Parmentier,
Y. (2013).  XMG : eXtensible MetaGrammar. Computational Linguistics,
39(3):1–38.

Duchier, D., Dao, T.-B.-H., and Parmentier, Y. (2011a). Model-Theory of
Property Grammars with Features. In 12th International Conference on
Parsing Technologies (IWPT 2011), pages 75–79, Dublin, Ireland.

Duchier, D., Dao, T.-B.-H., and Parmentier, Y. (2013). Model-Theory and
Implementation of Property Grammar. Journal of Logic and Computation,
pages 1–19. To appear.

Duchier, D., Parmentier, Y., and Petitjean, S. (2011b). Cross-framework
Grammar Engineering using Constraint-driven Metagrammars. In 6th
International Workshop on Constraint Solving and Language Processing
(CSLP’11), pages 32–43, Karlsruhe, Germany.

Graliński, F., Savary, A., Czerepowicka, M., and Makowiecki,
F. (2010). Computational Lexicography of Multi-Word Units: How Efficient
Can It Be? In Proceedings of the COLING-MWE’10 Workshop, Beijing, China.

Grégoire, N. (2010). DuELME: a Dutch electronic lexicon of multiword
expressions.  Language Resources and Evaluation, 44(1-2).

Nivre, J. and Nilsson, J. (2004). Multiword Units in Syntactic
Parsing. In MEMURA 2004 - Methodologies and Evaluation of Multiword
Units in Real-World Applications, Workshop at LREC 2004, pages 39–46,
Lisbon, Portugal.

Rayson, P., Piao, S., Aharoff, S., Evert, S., and na Villada Moir ́n, B.,
editors (2010). Multiword expression: hard going or plain sailing,
volume 44 of Language Resources and Evaluation. Springer.

Sag, I. A., Baldwin, T., Bond, F., Copestake, A., and Flickinger,
D. (2002). Multiword Expresions: A Pain in the Neck for NLP. In
Proceedings of CICLING’02. Springer.

Savary, A. (2008). Computational Inflection of Multi-Word Units. A
contrastive study of lexical approaches. Linguistic Issues in Language
Technology, 1(2):1–53.

Savary, A., Zaborowski, B., Krawczyk-Wieczorek, A., and Makowiecki, F. (2012).
SEJFEK - a Lexicon and a Shallow Grammar of Polish Economic Multi-Word Units. In Proceedings
of Cognitive Aspects of the Lexicon (COGALEX-III), a Workshop at COLING 2012.

Tolone, E. and Sagot, B. (2011). Using Lexicon-Grammar tables for French
verbs in a large-coverage parser. In Vetulani, Z., editor, Human
Language Technology. Challenges for Computer Science and
Linguistics. 4th Language and Technology Conference, LTC 2009, Poznań,
Poland, November 6-8, 2009, Revised Selected Papers, volume 6562 of
Lecture Notes in Artificial Intelligence (LNAI), pages 183–191. Springer
Verlag.

Tran, M. and Maurel, D. (2006). Prolexbase : Un dictionnaire relationnel
multilingue de noms propres. Traitement automatique des langues,
47(3):115–139.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list