Sujet de theses: ATOLL/INRIA

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Wed Apr 19 08:52:36 UTC 2006


Date: Fri, 14 Apr 2006 14:05:30 +0200
From: Eric De la Clergerie <Eric.De_La_Clergerie at inria.fr>
Message-ID: <443F900A.5030203 at inria.fr>
X-url: http://j-chkmail.ensmp.fr)!
X-url: http://www.inria.fr/travailler/opportunites/doc.fr.html
X-url: http://atoll.inria.fr
X-url: http://atoll.inria.fr/biblio
X-url: http://atoll.inria.fr/parserdemo
X-url: http://mosaique.labri.fr


Bonjour,

Deux sujets de thèse sont proposés par l'équipe ATOLL de l'INRIA sur
le site de Rocquencourt. La date limite de candidature est le 30 Avril
2006. Plus d'informations sur
	http://www.inria.fr/travailler/opportunites/doc.fr.html
et sur
	http://atoll.inria.fr rubrique 'Rejoindre ATOLL'

Titre 1: Pleinement exploiter les Méta-Grammaires
Titre 2:  À la limite des formalismes faiblement dépendant du contexte

Fiches détaillées:
------------------------------------------------------------------------
Sujet1

Projet: Atoll (http://atoll.inria.fr)
Encadrant: Eric de la Clergerie <Eric.De_La_Clergerie at inria.fr>

Sujet: Pleinement exploiter les Méta-Grammaires

Description:

Apparues récemment, les Méta-Grammaires [MG] permettent des
descriptions modulaires de faits syntaxiques pour une langue donnée.
Elles s'appuient sur une hiérarchie de classes élémentaires regroupant
des contraintes sur la forme des arbres d'analyse (comme «le sujet
précède le verbe») ou sur les décorations portées par les noeuds des
arbres (comme l'agrément sujet/verbe). Une phase de «compilation»
permet d'engendrer une grammaire pour un formalisme cible donné. Dans
le cas du projet ATOLL, nous avons ainsi développé une MG du français
et un compilateur de MG permettant d'engendrer une grammaire d'arbre
adjoint [TAG -- Tree Adjoining Grammar].

Beaucoup de pistes restent à explorer autour des MG, ce qui constitue
l'objectif principal de ce sujet de thèse. Nous évoquons ici quelques
unes de ces pistes:

     * de nouveaux types de contraintes peuvent être ajoutés pour
       faciliter le travail de description linguistique. Ce axe de
       recherche peut s'appuyer sur une comparaison avec d'autres
       formalismes linguistiques fondées sur les contraintes, comme
       les Grammaires de Propriétés (Ph. Blache).

     * de nouveaux éléments d'information peuvent être fournis au sein
       des MG, concernant d'autres dimension que la syntaxe. Cela
       concerne en particulier les informations sémantiques.

     * la génération vers d'autres formalismes cibles que les TAGs. On
       peut ainsi envisager d'utiliser des formalismes plus puissants,
       comme les «Multi-Component TAG» (MC-TAG). Il est aussi
       intéressant d'envisager des formalismes moins puissants, les
       grammaires ainsi engendrées servant alors de guide, pendant
       l'analyse, à des grammaires plus puissantes.

     * la réutilisation (partielle) de la hiérarchie de classes et de
       leur contenu pour des formalismes cibles différents mais aussi
       pour des langues différentes. Il semble en effet que des
       langues proches puissent partager des sous-parties de
       méta-grammaires.

     * la possibilité, en s'appuyant sur la modularité des MG, de
       facilement bâtir des meta-grammaires sur mesure, pour une
       application donnée correspondant à un style de langue
       particulier.

Ce sujet de thèse s'adresse à des candidats prêt à s'investir dans les
tâches de description syntaxique de la langue pour comprendre ce que
devraient apporter les MG aux linguistes. Ce travail se fera
essentiellement pour le français, avec cependant des études et/ou
expérimentations pour d'autres langues. L'étudiant sera amené à
s'impliquer dans l'ARC MOSAIQUE sur la définition de modèles
syntaxiques de haut-niveau.

Liens:
        Biblio ATOLL: http://atoll.inria.fr/biblio
                 rechercher Méta-Grammaires
        demo FRMG: http://atoll.inria.fr/parserdemo
        ARC MOSAIQUE: http://mosaique.labri.fr

------------------------------------------------------------------------
Sujet2

Projet: Atoll (http://atoll.inria.fr)
Encadrant: Eric de la Clergerie <Eric.De_La_Clergerie at inria.fr>

Sujet: À la limite des formalismes faiblement dépendant du contexte

Description:

La classe des formalismes dit «faiblement dépendants du contexte» [MCS
- Mildly context sensitive] regroupe un ensemble assez large de
formalismes considérés comme pertinents pour la description syntaxique
des langues humaines tout en assurant des propriétés (théoriques)
d'analyse en temps et place polynomials. Néanmoins, les formalismes
les plus puissants de cette classe comme les «Multi-Component TAG» ne
sont pas réellement implantés et utilisés. D'autre part, il existe des
phénomènes syntaxiques qui échapent en partie aux MCS, comme l'ordre
libre entre constituants («scrambling» en allemand) ou la
non-linéarité (partage d'un sous-constituant entre 2 constituants).
Pourtant, divers indices laissent à penser que ces phénomènes peuvent
aussi s'analyser en temps polynomial.

Le sujet de thèse porte sur l'examen d'extensions possibles des MCS
tout en conservant de bonnes propriétés algorithmiques pour l'analyse.
Les points de départ sont d'une part:

    * nos automates à fils (TA -- «thread automata») qui permettent
    l'analyse des MCS avec une complexité polynomiale pour une large
    variété de stratégies d'analyse. Certaines extensions des TA
    (comme les Shared TA) semblent prometteuses pour aller au delà des
    MCS.

    * nos Grammaires à concaténation d'arbres (RCG -- Range
      Concatenation Grammars, Pierre Boullier) qui couvrent des
      formalismes au delà des MCS, tout en assurant l'existence
      d'analyseurs en complexité polynomiale. Néanmoins, les RCG ne
      sont pas directement un formalisme adéquat pour des descriptions
      linguistiques et certaines stratégies d'analyse (gauche-droite
      descendantes avec validité des préfixes) ne sont pas facilement
      exprimables pour les RCG.

Ce travail de thèse s'effectuera en parallèle avec l'implantation des
TA et de leurs extensions au sein de notre système DyALog, de manière
à pouvoir tester rapidement de nouveaux formalismes linguistiques. Le
développement rapide de grammaires conséquentes pour le français sera
envisagé en s'appuyant sur FRMG, notre grammaire actuelle. Celle-ci
est une grammaire d'arbres adjoints (TAG -- Tree Adjoining Grammar)
engendrée à partir d'un niveau plus abstrait de description syntaxique
sous forme de Méta-Grammaire [MG]. Dans le cadre de ce sujet, on peut
imaginer prendre des formalismes plus puissants que les TAG comme
formalisme cible des MG.

Ce sujet de thèse concerne des candidats avec un bon bagage
mathématique en théorie des langages formels et en algorithmique, sans
négliger un goût pour le développement. L'intérêt premier du sujet est
d'explorer ces aspects théoriques dans un cadre linguistique concret,
en s'appuyant sur un ensemble d'outils et de ressources déjà
existants. L'étudiant sera amené à s'impliquer dans l'ARC MOSAIQUE sur
la définition de modèles syntaxiques de haut-niveau.

Liens:
        Biblio ATOLL: http://atoll.inria.fr/biblio
                 rechercher sur Thread Automata , RCG, DyALog,
Méta-Grammaires
        demo FRMG: http://atoll.inria.fr/parserdemo
        ARC MOSAIQUE: http://mosaique.labri.fr


-- 
Eric.De_La_Clergerie at inria.fr	 Projet Atoll - INRIA Rocquencourt
WWW Home Page: http://atoll.inria.fr/~clerger


-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version          : 
Archives                 : http://listes.cines.fr/wws/arc/ln
                           http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list