These: Elsa Tolone, Analyse syntaxique a l'aide des tables du Lexique-Grammaire du francais

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Mar 18 21:17:36 UTC 2011


Date: Thu, 17 Mar 2011 18:14:07 +0100
From: Elsa Tolone <elsa.tolone at univ-paris-est.fr>
Message-ID: <1300382047.4d82415fe847c at thompson.univ-mlv.fr>
X-url: http://igm.univ-mlv.fr/~tolone/phd.pdf


Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
« Analyse syntaxique à l'aide des tables du Lexique-Grammaire du
français »

le jeudi 31 mars à 10h30 à l'auditorium Maurice Gross du bâtiment
Copernic (rez-de-chaussée) à l'université Paris-Est Marne-la-Vallée, 5
Bd Descartes, Champs-sur-Marne (RER A Noisy-Champs).
Un plan d'accès à l'université, ainsi qu'un plan du campus sont
consultables en ligne :

http://igm.univ-mlv.fr/acces_umlv.html
http://igm.univ-mlv.fr/acces_campus.html

A cette occasion, la version 3.3 des tables du Lexique-Grammaire sera
diffusée sur le site :
http://infolingu.univ-mlv.fr/

Elle contiendra toutes les tables et les différents lexiques
auxquelles elles ont été converties, avec une documentation complète
de toutes les propriétés syntaxico-sémantiques des verbes
distributionnels, ainsi que la définition formelle de chaque table et
l'arbre de classification des verbes distributionnels.

Le manuscrit de thèse est télechargeable dès à présent à l'adresse :
http://igm.univ-mlv.fr/~tolone/phd.pdf

Vous êtes aussi chaleureusement invités au pot qui suivra.

Cordialement,
Elsa Tolone


Composition du jury :
---------------------

Laurence Danlos - Université Denis Diderot - Paris 7 (Rapporteur)
Laura Kallmeyer - Universität Düsseldorf (Rapporteur)
Eric de La Clergerie - INRIA Paris-Rocquencourt (Examinateur)
Denys Duchier - Université d'Orléans (Examinateur)
Eric Laporte - Université Paris-Est (Directeur)
Matthieu Constant - Université Paris-Est (Co-directeur)

Résumé :
--------

Les tables du Lexique-Grammaire, dont le développement a été initié
par Gross (1975), constituent un lexique syntaxique très riche pour le
français. Elles couvrent diverses catégories lexicales telles que les
verbes, les noms, les adjectifs et les adverbes. Cette base de données
linguistiques n'est cependant pas directement exploitable
informatiquement car elle est incomplète et manque de cohérence.

Chaque table regroupe un certain nombre d’entrées jugées similaires
car elles acceptent des propriétés communes. Ces propriétés ont pour
particularité de ne pas être codées dans les tables même mais
uniquement décrites dans la littérature. Pour rendre ces tables
exploitables, il faut expliciter les propriétés intervenant dans
chacune d'entre elles. De plus, un grand nombre de ces propriétés
doivent être renommées dans un souci de cohérence.

Notre objectif est d'adapter les tables pour les rendre utilisables
dans diverses applications de Traitement Automatique des Langues
(TAL), notamment l'analyse syntaxique. Nous expliquons les problèmes
rencontrés et les méthodes adoptées pour permettre leur intégration
dans un analyseur syntaxique.  Nous proposons LGExtract, un outil
générique pour générer un lexique syntaxique pour le TAL à partir des
tables du Lexique-Grammaire. Il est relié à une table globale dans
laquelle nous avons ajouté les propriétés manquantes et un unique
script d'extraction incluant toutes les opérations liées à chaque
propriété devant être effectuées pour toutes les tables. Nous
présentons également LGLex, le nouveau lexique syntaxique généré des
verbes, des noms prédicatifs, des expressions figées et des adverbes.

Ensuite, nous montrons comment nous avons converti les verbes et les
noms prédicatifs de ce lexique au format Alexina, qui est celui du
lexique Lefff (Lexique des Formes Fléchies du Français) (Sagot, 2010),
un lexique morphologique et syntaxique à large couverture et librement
disponible pour le français. Ceci permet son intégration dans
l'analyseur syntaxique FRMG (French MetaGrammar) (Thomasset et de La
Clergerie, 2005), un analyseur profond à large couverture pour le
français, basé sur les grammaires d'arbres adjoints (TAG), reposant
habituellement sur le Lefff.

Cette étape de conversion consiste à extraire l'information syntaxique
codée dans les tables du Lexique-Grammaire. Nous présentons les
fondements linguistiques de ce processus de conversion et le lexique
obtenu. Nous évaluons l'analyseur syntaxique FRMG sur le corpus de
référence de la campagne d'évaluation d'analyseurs du français Passage
(Produire des Annotations Syntaxiques à Grande Échelle) (Hamon et al.,
2008), en comparant sa version basée sur le Lefff avec notre version
reposant sur les tables du Lexique-Grammaire converties.

Abstract:
---------

Lexicon-Grammar tables, whose development was initiated by Gross
(1975), are a very rich syntactic lexicon for the French
language. They cover various lexical categories such as verbs, nouns,
adjectives and adverbs. This linguistic database is nevertheless not
directly usable by computer programs, as it is incomplete and lacks
consistency.

Tables are defined on the basis of features which are not explicitly recorded in
the lexicon. These features are only described in literature. To use these
tables, we must make explicit the essential features appearing in each one of
them. In addition, many features must be renamed for consistency sake.
Our aim is to adapt the tables, so as to make them usable in various Natural
Language Processing (NLP) applications, in particular parsing. We describe the
problems we encountered and the approaches we followed to enable their
integration into a parser.

We propose LGExtract, a generic tool for generating a syntactic
lexicon for NLP from the Lexicon-Grammar tables. It relies on a global
table in which we added the missing features and on a single
extraction script including all operations related to each property to
be performed for all tables.  We also present LGLex, the new generated
lexicon of French verbs, predicative nouns, frozen expressions and
adverbs.

Then, we describe how we converted the verbs and predicatives nouns of
this lexicon into the Alexina framework, that is the one of the Lefff
lexicon (Lexique des Formes Fléchies du Français) (Sagot, 2010), a
freely available and large-coverage morphological and syntactic
lexicon for French.  This enables its integration in the FRMG parser
(French MetaGrammar) (Thomasset et de La Clergerie, 2005), a
large-coverage deep parser for French, based on Tree-Adjoining
Grammars (TAG), that usually relies on the Lefff.

This conversion step consists in extracting the syntactic information
encoded in Lexicon-Grammar tables. We describe the linguistic basis of
this conversion process, and the resulting lexicon. We evaluate the
FRMG parser on the reference corpus of the evaluation campaign for
French parsers Passage (Produire des Annotations Syntaxiques à Grande
Échelle) (Hamon et al., 2008), by comparing its Lefff-based version to
our version relying on the converted Lexicon-Grammar tables.

Elsa Tolone
Laboratoire d'informatique Gaspard-Monge
Université Paris-Est Marne-la-Vallée
Bâtiment Copernic - Bureau 4B089
77454 Marne-la-Vallée Cedex 2

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list