Sujet de these: TAL, LORIA, INRIA, Nancy
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Apr 17 14:35:41 UTC 2009
Date: Thu, 16 Apr 2009 11:55:12 +0200
From: Guy Perrier <Guy.Perrier at loria.fr>
Message-Id: <CA28F6E8-403E-4565-95F0-89C6587503AF at loria.fr>
X-url: http://www.loria.fr/equipes/calligramme/
X-url: http://www.inria.fr/travailler/opportunites/doc.fr.html
L'INRIA propose une thèse sur le sujet "Construction modulaire de
grammaires formelles motivées linguistiquement". La thèse se
déroulera au LORIA à Nancy dans l'équipe Calligramme
(http://www.loria.fr/equipes/calligramme/ ) sous la responsabilité de
Guy Perrier, professeur d'informatique à l'université Nancy 2
(Guy.Perrier at loria.fr).
Salaire proposé (net mensuel) : 1.541 € les deux premières années et
1.624 € la dernière année.
Candidature à effectuer en ligne avant le 4 mai 2009 sur le site de
l'INRIA : http://www.inria.fr/travailler/opportunites/doc.fr.html
Description du sujet:
Dans le domaine du Traitement Automatique des Langues (TAL), la
nécessité d’avoir des grammaires formelles avec une excellente
précision linguistique et une large couverture est de plus en plus
évidente. De telles grammaires ne peuvent pas être apprises
automatiquement à partir de corpus et elles doivent être construites
manuellement à partir de connaissances linguistiques. Une telle tâche
est particulièrement difficile pour plusieurs raisons :
- Il est difficile de maintenir la cohérence et la lisibilité de
telles grammaires compte tenu de leur taille (une grammaire d’arbres
adjoints peut avoir plus de 10000 arbres).
- Ces grammaires doivent être écrites dans un formalisme. Or, il y a
une multiplicité de formalismes utilisés en TAL et aucun d’entre eux
ne s’est imposé sur les autres. Les grammaires écrites dans un
formalisme ont du mal à être traduite dans un autre.
- Enfin, par souci d’efficacité calculatoire, les grammaires sont
souvent lexicalisées : chaque construction grammaticale est liée à
un mot de la langue. La lexicalisation entraîne une redondance
d’information, ce qui rend le maintien de la cohérence de la
grammaire plus difficile que dans le cas général.
Dans les équipes Calligramme et Talaris du LORIA, a été développé un
environnement logiciel, baptisé XMG [Duchier and al. 2004], pour aider
à la construction de telles grammaires.
En s'appuyant sur cette expérience, il s'agit de concevoir un langage
abstrait de description grammaticale suffisamment expressif pour
représenter différentes théories linguistiques et différents
formalismes grammaticaux, en prenant en compte à la fois la syntaxe et
la sémantique des langues.
Le langage à définir ne doit pas seulement permettre la juxtaposition
de divers formalismes grammaticaux. Ce faisant, il passerait à côté
d’un souci essentiel qui est de pouvoir réutiliser les ressources
grammaticales d’un formalisme à un autre. Le langage doit aider à
s’abstraire au maximum des différents formalismes cibles pour exprimer
les généralisations linguistiques d’une grammaire d’une façon aussi
naturelle que pourrait le faire un linguiste. A la limite, il faudrait
pouvoir décrire une grammaire d’une façon complètement indépendante
des formalismes cibles pour ensuite la traduire dans ceux-ci. Compte
tenu de la profonde hétérogénéité des formalismes grammaticaux, cet
objectif semble difficile à atteindre tel quel mais c’est le but vers
lequel il faut tendre.
Pour mener à bien cet ambitieux programme, l’étudiant devra faire
converger deux points de vue : d’un côté, celui de linguistes qui
modélisent la langue et qui ont besoin d’un formalisme élégant et
synthétique pour écrire les règles de la grammaire, de l’autre côté
celui d’informaticiens qui développent des analyseurs pour traiter
automatiquement des textes de façon efficace. Il pourra s’appuyer pour
cela sur une expérience déjà riche de développement de grammaires pour
le TAL linguistiquement motivées. Cela l’amènera à interagir avec
plusieurs équipes de recherche françaises et étrangères engagées dans
le domaine.
Référence :
[Duchier and al. 2004] Duchier, D., J. Le Roux, and Y. Parmentier.
2004. The meta-grammar compiler : A NLP Application with a Multi-
paradigm Architecture. In Second International Mozart/Oz Conference -
MOZ 2004, Charleroi, Belgium.
Contact :
Guy Perrier
tél : +33 (0)3 54 95 84 19
email :Guy.Perrier at loria.fr
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list