These: Benoit Sagot, Analyse automatique du français

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Mar 31 12:06:48 UTC 2006


Date: Wed, 29 Mar 2006 16:12:52 +0200
From: Benoît Sagot <benoit.sagot at inria.fr>
Message-Id: <3D9928E3-2CF7-4905-BA18-59250428EAAD at inria.fr>



Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse, intitulée
: "Analyse automatique du français : lexiques, formalismes,
analyseurs". Un résumé vous en est donné ci-dessous.

Sauf problème administratif ou pratique lié à l'actualité sociale, la
soutenance aura lieu le vendredi 7 avril à 14h30, à l'UFR de
Linguistique de Paris 7 (salle 131, 1er étage), au 30 rue du Château
des Rentiers, 75013 Paris (métro Porte d'Ivry, ligne 7).

Les membres du jury seront:

Laurence Danlos, Professeur à l'Université Paris 7 (directrice de thèse)
Éric de La Clergerie, Chargé de Recherches à l'INRIA (co-directeur de  
thèse)
Philippe Blache, Directeur de Recherche au CNRS (rapporteur)
Gérard Huet, Directeur de Recherche à l'INRIA, membre de l'Académie  
des Sciences (rapporteur)
Sylvain Kahane, Professeur à l'Université Paris 10 (président)
John Carroll, Reader à l'Université de Sussex (examinateur)
Pierre Boullier, Directeur de Recherche à l'INRIA (membre invité)

La soutenance sera naturellement suivie d'un pot, auquel vous êtes
tous conviés.

Benoît Sagot
INRIA Rocquencourt (projet Atoll) et Université Paris 7 (Lattice)


Résumé de la thèse:

Il existe aujourd'hui un grand nombre de formalismes utilisés pour la
modélisation des langues. Certains sont largement répandus, certains
ont donné lieu au développement d'analyseurs automatiques efficaces et
de ressources linguistiques (lexiques, grammaires) à large couverture,
mais aucun n'a réellement pris le pas sur les autres.  Nous nous
sommes donc interrogé sur les raisons de cet état de fait, en mettant
l'accent sur les caractéristiques qu'on attend d'un formalisme de
modélisation des langues, et en particulier la prise en compte
d'informations lexicales riches (syntaxiques et sémantiques), la
pertinence linguistique et les propriétés formelles et opérationnelles
pour le développement d'analyseurs (efficacité, robustesse).

À partir de ces réflexions, nous proposons une architecture générale
pour la modélisation des langues. Nous illustrons les avantages de
cette architecture par deux formalismes qui en sont des approximations
différentes et complémentaires :

   - le formalisme LFG, très répandu, et notre nouvel analyseur SxLfg,
qui allie robustesse et efficacité, permettant l'analyse profonde de
corpus de plusieurs millions de mots en quelques heures ;

   - le formalisme Méta-RCG, qui permet une modélisation pertinente de
la syntaxe (graphes de dépendances), la prise en compte au même niveau
de contraintes de différentes natures (morphologie, syntaxe,
sémantique lexicale), et la construction en un temps polynomial d'une
analyse complète dont les analyses en constituants, en dépendances, en
boîtes topologiques et en sémantique prédicative sont des projections
; nous décrivons brièvement la grammaire à moyenne couverture et le
lexique syntaxico-sémantique jouet que nous avons utilisé avec notre
analyseur.

Mais la qualité des résultats d'un analyseur dépend également des
ressources sur lesquelles il repose et de l'environnement dans lequel
il s'insère. C'est pourquoi nous avons également mené des recherches
sur ces questions. Nous décrivons la chaîne de traitement pré-
syntaxique que nous avons développée, nommée SxPipe, mais surtout les
différents travaux que nous avons effectués sur la structuration,
l'acquisition et le développement de lexiques morphologiques,
syntaxiques et sémantiques. En particulier, nous décrivons une méthode
originale pour l'apprentissage automatique de lexiques morphologiques,
une technique de fouille d'erreurs dans le résultat de l'analyse
syntaxique de gros corpus, et une architecture de structuration de
lexiques syntaxiques par héritage de propriétés atomiques. Ces
techniques ont été mises en oeuvre, entre autres applications, pour
développer un lexique syntaxique à large couverture du Français, le
Lefff (Lexique des formes fléchies du français).


-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version          : 
Archives                 : http://listes.cines.fr/wws/arc/ln
                           http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list