Sujet de theses: ATOLL/INRIA
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Wed Apr 19 08:52:36 UTC 2006
Date: Fri, 14 Apr 2006 14:05:30 +0200
From: Eric De la Clergerie <Eric.De_La_Clergerie at inria.fr>
Message-ID: <443F900A.5030203 at inria.fr>
X-url: http://j-chkmail.ensmp.fr)!
X-url: http://www.inria.fr/travailler/opportunites/doc.fr.html
X-url: http://atoll.inria.fr
X-url: http://atoll.inria.fr/biblio
X-url: http://atoll.inria.fr/parserdemo
X-url: http://mosaique.labri.fr
Bonjour,
Deux sujets de thèse sont proposés par l'équipe ATOLL de l'INRIA sur
le site de Rocquencourt. La date limite de candidature est le 30 Avril
2006. Plus d'informations sur
http://www.inria.fr/travailler/opportunites/doc.fr.html
et sur
http://atoll.inria.fr rubrique 'Rejoindre ATOLL'
Titre 1: Pleinement exploiter les Méta-Grammaires
Titre 2: À la limite des formalismes faiblement dépendant du contexte
Fiches détaillées:
------------------------------------------------------------------------
Sujet1
Projet: Atoll (http://atoll.inria.fr)
Encadrant: Eric de la Clergerie <Eric.De_La_Clergerie at inria.fr>
Sujet: Pleinement exploiter les Méta-Grammaires
Description:
Apparues récemment, les Méta-Grammaires [MG] permettent des
descriptions modulaires de faits syntaxiques pour une langue donnée.
Elles s'appuient sur une hiérarchie de classes élémentaires regroupant
des contraintes sur la forme des arbres d'analyse (comme «le sujet
précède le verbe») ou sur les décorations portées par les noeuds des
arbres (comme l'agrément sujet/verbe). Une phase de «compilation»
permet d'engendrer une grammaire pour un formalisme cible donné. Dans
le cas du projet ATOLL, nous avons ainsi développé une MG du français
et un compilateur de MG permettant d'engendrer une grammaire d'arbre
adjoint [TAG -- Tree Adjoining Grammar].
Beaucoup de pistes restent à explorer autour des MG, ce qui constitue
l'objectif principal de ce sujet de thèse. Nous évoquons ici quelques
unes de ces pistes:
* de nouveaux types de contraintes peuvent être ajoutés pour
faciliter le travail de description linguistique. Ce axe de
recherche peut s'appuyer sur une comparaison avec d'autres
formalismes linguistiques fondées sur les contraintes, comme
les Grammaires de Propriétés (Ph. Blache).
* de nouveaux éléments d'information peuvent être fournis au sein
des MG, concernant d'autres dimension que la syntaxe. Cela
concerne en particulier les informations sémantiques.
* la génération vers d'autres formalismes cibles que les TAGs. On
peut ainsi envisager d'utiliser des formalismes plus puissants,
comme les «Multi-Component TAG» (MC-TAG). Il est aussi
intéressant d'envisager des formalismes moins puissants, les
grammaires ainsi engendrées servant alors de guide, pendant
l'analyse, à des grammaires plus puissantes.
* la réutilisation (partielle) de la hiérarchie de classes et de
leur contenu pour des formalismes cibles différents mais aussi
pour des langues différentes. Il semble en effet que des
langues proches puissent partager des sous-parties de
méta-grammaires.
* la possibilité, en s'appuyant sur la modularité des MG, de
facilement bâtir des meta-grammaires sur mesure, pour une
application donnée correspondant à un style de langue
particulier.
Ce sujet de thèse s'adresse à des candidats prêt à s'investir dans les
tâches de description syntaxique de la langue pour comprendre ce que
devraient apporter les MG aux linguistes. Ce travail se fera
essentiellement pour le français, avec cependant des études et/ou
expérimentations pour d'autres langues. L'étudiant sera amené à
s'impliquer dans l'ARC MOSAIQUE sur la définition de modèles
syntaxiques de haut-niveau.
Liens:
Biblio ATOLL: http://atoll.inria.fr/biblio
rechercher Méta-Grammaires
demo FRMG: http://atoll.inria.fr/parserdemo
ARC MOSAIQUE: http://mosaique.labri.fr
------------------------------------------------------------------------
Sujet2
Projet: Atoll (http://atoll.inria.fr)
Encadrant: Eric de la Clergerie <Eric.De_La_Clergerie at inria.fr>
Sujet: À la limite des formalismes faiblement dépendant du contexte
Description:
La classe des formalismes dit «faiblement dépendants du contexte» [MCS
- Mildly context sensitive] regroupe un ensemble assez large de
formalismes considérés comme pertinents pour la description syntaxique
des langues humaines tout en assurant des propriétés (théoriques)
d'analyse en temps et place polynomials. Néanmoins, les formalismes
les plus puissants de cette classe comme les «Multi-Component TAG» ne
sont pas réellement implantés et utilisés. D'autre part, il existe des
phénomènes syntaxiques qui échapent en partie aux MCS, comme l'ordre
libre entre constituants («scrambling» en allemand) ou la
non-linéarité (partage d'un sous-constituant entre 2 constituants).
Pourtant, divers indices laissent à penser que ces phénomènes peuvent
aussi s'analyser en temps polynomial.
Le sujet de thèse porte sur l'examen d'extensions possibles des MCS
tout en conservant de bonnes propriétés algorithmiques pour l'analyse.
Les points de départ sont d'une part:
* nos automates à fils (TA -- «thread automata») qui permettent
l'analyse des MCS avec une complexité polynomiale pour une large
variété de stratégies d'analyse. Certaines extensions des TA
(comme les Shared TA) semblent prometteuses pour aller au delà des
MCS.
* nos Grammaires à concaténation d'arbres (RCG -- Range
Concatenation Grammars, Pierre Boullier) qui couvrent des
formalismes au delà des MCS, tout en assurant l'existence
d'analyseurs en complexité polynomiale. Néanmoins, les RCG ne
sont pas directement un formalisme adéquat pour des descriptions
linguistiques et certaines stratégies d'analyse (gauche-droite
descendantes avec validité des préfixes) ne sont pas facilement
exprimables pour les RCG.
Ce travail de thèse s'effectuera en parallèle avec l'implantation des
TA et de leurs extensions au sein de notre système DyALog, de manière
à pouvoir tester rapidement de nouveaux formalismes linguistiques. Le
développement rapide de grammaires conséquentes pour le français sera
envisagé en s'appuyant sur FRMG, notre grammaire actuelle. Celle-ci
est une grammaire d'arbres adjoints (TAG -- Tree Adjoining Grammar)
engendrée à partir d'un niveau plus abstrait de description syntaxique
sous forme de Méta-Grammaire [MG]. Dans le cadre de ce sujet, on peut
imaginer prendre des formalismes plus puissants que les TAG comme
formalisme cible des MG.
Ce sujet de thèse concerne des candidats avec un bon bagage
mathématique en théorie des langages formels et en algorithmique, sans
négliger un goût pour le développement. L'intérêt premier du sujet est
d'explorer ces aspects théoriques dans un cadre linguistique concret,
en s'appuyant sur un ensemble d'outils et de ressources déjà
existants. L'étudiant sera amené à s'impliquer dans l'ARC MOSAIQUE sur
la définition de modèles syntaxiques de haut-niveau.
Liens:
Biblio ATOLL: http://atoll.inria.fr/biblio
rechercher sur Thread Automata , RCG, DyALog,
Méta-Grammaires
demo FRMG: http://atoll.inria.fr/parserdemo
ARC MOSAIQUE: http://mosaique.labri.fr
--
Eric.De_La_Clergerie at inria.fr Projet Atoll - INRIA Rocquencourt
WWW Home Page: http://atoll.inria.fr/~clerger
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listes.cines.fr/wws/arc/ln
http://listserv.linguistlist.org/archives/ln.html
La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list