Seminaire: Anthony Sigogne, Myriam Rakho, INFOLINGU, Universite Paris-Est, 05 juillet 2010

Sat Jul 3 19:46:07 UTC 2010

Date: Wed, 30 Jun 2010 14:18:01 +0200
From: Anthony Sigogne <sigogne at univ-mlv.fr>
Message-ID: <AANLkTim12CjL53fLelNq1EV9Oy7CDzHzkI9SfJ7lhfTJ at mail.gmail.com>

************************************************************************
INFOLINGU

Le séminaire de l'équipe Informatique Linguistique
du Laboratoire d'Informatique Gaspard Monge (LIGM)
************************************************************************

Le Lundi 05 juillet 2010, 10h00 - 12h00.

Exceptionnellement, deux orateurs interviennent au cours du dernier
séminaire de l'année.

À l'Université Paris-Est Marne-la-Vallée, bâtiment Copernic,
4ème étage, salle de séminaire.

Toute personne intéressée est la bienvenue.
************************************************************************

10h - 11h
Orateur

Anthony Sigogne (LIGM/Paris Est Marne-la-Vallée)

Titre de la présentation :
L'analyse syntaxique statistique du français : état des lieux

Résumé de la présentation :

L'analyse syntaxique statistique en constituants du français est, à
l'heure actuelle, au stade des premières expérimentations. Les
expériences qui ont été menées dans le passé ont consisté
principalement à évaluer, sur le français, des analyseurs
originellement développés et appliqués sur l'anglais. Les résultats
ont indiqué des performances moindres sur le français, les raisons
invoquées étant diverses. On pourra notamment citer la différence dans
les schémas d'annotation des corpus annotés français et anglais, ou
encore les spécificités du français impossibles à capturer avec
certains analyseurs. Mon objectif premier est donc de déterminer une
chaîne de traitements syntaxiques traitant le français qui permette
d'obtenir des performances se rapprochant de celles obtenues pour
l'anglais.

Je commencerai par présenter l'état de l'art général de l'analyse
syntaxique statistique en évoquant tout d'abord les différents modèles
probabilistes existants et les analyseurs basés sur ces modèles. Nous
verrons que le choix du modèle en fonction de la tâche à effectuer est
crucial pour les performances d'un analyseur probabiliste. J'évoquerai
ensuite l'état des lieux en ce qui concerne les expériences qui ont
été menées sur le français et les conclusions que nous pouvons en
tirer.

Ensuite, je décrirai les expériences que je désire mener dans le cadre
du français d'après les remarques et les observations faîtes dans la
première partie. Je présenterai la chaîne de traitements syntaxiques
basée sur la séquentialisation de deux analyseurs. Le premier
analyseur calcule la ou les analyses les plus probables d'une phrase
et un deuxième analyseur a pour tâche le reclassement des analyses,
l'analyse plus probable n'étant pas forcément la meilleure en terme de
performance.

Puis, je finirai cette présentation par l'avancement de mon travail et
les perspectives à long terme avec notamment l'intégration d'un
lexique syntaxique, le Lexique-Grammaire, dans la chaîne de
traitements.

--------------------

11h - 12h
Oratrice

Myriam Rakho (LIGM/Paris Est Marne-la-Vallée)

Titre de la présentation :
Annotation sémantique : état de l'art

Résumé de la présentation :

Cette présentation est un point sur ma première année en thèse. En
première partie je présenterai la problématique de mon sujet de thèse,
à savoir, l'ajustement des modèles linguistiques et statistiques pour
la désambiguïsation automatique des mots polysémiques dans le cadre de
la traduction automatique. Puis j'effectuerai un rappel sur la notion
de polysémie et, par là, sur les objectifs de mon travail.

La troisième partie porte sur les informations linguistiques utilisées
en désambiguïsation sémantique pour décrire les contextes des mots
ambigus.  Après un bref état de l'art sur les différents types de
connaissances linguistiques utilisées et les conclusions formulées
dans la littérature les concernant, je décrirai certaines hypothèses
que je projette de tester. Ces hypothèses concernent les différents
types de modèles de représentation linguistique des données que je
pourrais construire à partir des différents prétraitements
linguistiques ainsi que les informations apportées et à apprendre pour
chaque modèle de représentation. Ces hypothèses concernent également
la pertinence des différents types d'informations linguistiques selon
les catégories de mots (formes impersonnelles, ...) et les différentes
manières possibles de combiner ces informations en fonction du mot à
désambiguïser (en fonction du type de polysémie, en fonction de sa
catégorie grammaticale, ...), etc. Je présenterai ensuite une liste de
connaissances linguistiques que je projette d'utiliser pour augmenter
encore la précision dans la description des contextes des mots. Il
s'agit d'informations pour lesquelles je serai amenée à construire des
ressources linguistiques.

La quatrième et dernière partie, sera un état de l'art des techniques
statistiques d'analyse des données et d'apprentissage utilisées pour
la désambiguïsation sémantique des mots polysémiques. J'insisterai en
particulier sur les méthodes que j'intégrerai dans mes expériences,
pour les combiner ou pour procéder à une évaluation comparative de
leurs résultats.  Puis je concluerai sur l'état d'avancement de mon
travail.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------