Sujet de these: Etiquetage syntaxique pour les grammaires categorielles de dependance

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Feb 22 21:11:19 UTC 2011


Date: Mon, 21 Feb 2011 10:17:30 +0100
From: Denis Bechet <Denis.Bechet at univ-nantes.fr>
Message-Id: <201102211017.30226.Denis.Bechet at univ-nantes.fr>
X-url: http://edstim.univ-nantes.fr/

Proposition de thèse en TALN

Lieu :   LINA - UMR 6241, Université de Nantes

Début : septembre 2011
Durée : 3 ans
Contacts: Alexandre.Dikovsky at univ-nantes.fr et
Denis.Bechet at univ-nantes.fr

Titre : Etiquetage syntaxique pour les grammaires catégorielles de
dépendance

L'objectif de cette thèse est d'élaborer un analyseur stochastique
efficace pour les grammaires catégorielles de dépendances (GCD) à
large couverture.  Les GCD est la seule classe de grammaires de
dépendances dans la littérature qui définissent les dépendances non
restreintes : projectives, non-projectives, répétitives et, en même
temps, sont analysables en temps polynomial. Au sein de l'équipe TALN
du LINA ont été élaborés une GCD à large couverture du français et un
analyseur pour les GCD qui continuent d'être améliorés, en
particulier, en ce qui concerne la robustesse et la précision.

Le travail portera, d'une part, sur la recherche d'un modèle
d'analyseur stochastique générique où la notion de dépendances
discontinues sera pleinement exploitée, et, d'autre part, sur la
création d'un modèle spécifique pour une ou plusieurs langues
naturelles (français, russe, anglais, etc.) permettant, d'un côté,
d'atteindre un taux très élevé de précision et de l'autre de
désambiguïser l'analyse.  L'entraînement de l'analyseur syntaxique
pour le français se fera sur un corpus développé actuellement par
l'équipe TALN où les dépendances non-projectives sont très
présentes. La manière totalement lexicalisée de représenter les
dépendances discontinues propre aux GCD sera un des atouts de ce
travail pour l'analyse des structures discontinues.

Le problème général de l'analyse syntaxique des grammaires à large
couverture (en dépendances ou en constituants) est l'explosion
combinatoire des analyses fallacieuses. L'analyseur des GCD donnant
actuellement toutes les solutions compatibles avec une GCD, il sera
nécessaire de trier les solutions suivant leur pertinence.

La candidature sera examinée en fonction de la réussite en Master et
des connaissances dans le domaine de l'analyse syntaxique du langage
naturel.  Une expérience de l'apprentissage automatique serait
appréciée. Les réalisations nécessitent une certaine maîtrise des
langages informatiques tels que Common Lisp, Java, C++ et pour les
interfaces utilisateurs, PHP, Javascript, Perl et Bash.

Le financement de cette thèse est garanti pour un candidat de qualité.

Le sujet est validé par l'école doctorale STIM :
http://edstim.univ-nantes.fr/

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list