Seminaire: Alpage, Kata Gabor, 3 decembre

Tue Nov 30 19:39:32 UTC 2010

Date: Tue, 30 Nov 2010 16:11:33 +0100
From: Benoit Crabbé <benoit.crabbe at gmail.com>
Message-Id: <616B367A-5E33-44D0-93B6-ADD5A4C9DCF4 at gmail.com>
X-url: http://www.linguist.univ-paris-diderot.fr/~jthuilier/sem/seminaire.html

*************** Séminaire Alpage *******************

 Séminaire de l'école doctorale de Paris 7

Il s'agit du séminaire de recherche en linguistique informatique
organisé par l'équipe Alpage, Alpage est une équipe mixte Inria --
Paris 7 qui centre ses intérêts scientifiques autour de l'analyse
syntaxique automatique et du traitement du discours pour la langue
française.

Suite au déménagement de l'UFRL, 
le séminaire se tiendra en salle 4C92
vendredi 3 décembre de 11.00 à 13.00
175 rue du Chevaleret 75013 Paris. (4e étage)

Toute personne intéressée est la bienvenue.

***********************************************************

Kata Gabor (Alpage)

nous parlera de 

Acquisition de schémas d'événements à partir de corpus

résumé : 

Le travail présenté a pour objectif la mise au point d´algorithmes
pour produire des schémas d´extraction d'informations dans le cadre du
projet SCRIBO (Semi-automatic and Collaborative Retrieval of
Information Based on Ontologies). SCRIBO vise à extraire, de manière
non supervisée, des concepts et des relations entre concepts à partir
de corpus. Un schéma d'extraction correspond à une relation entre des
concepts. Il est défini sur le champs sémantique en tant qu'un type
d'événement, tandis que sur le champs syntaxique, il rassemble toutes
les manières dont un certain type d'événement peut être exprimé dans
le texte.

La méthodologie pour identifier les schémas d'extraction est basée sur
l'analyse distributionnelle de Z.S. Harris. D'après notre hypothèse,
les diverses formes pour exprimer le même type d'événement
apparaissent dans le corpus avec les mêmes types de participants, ce
qui se traduit en une similarité entre leurs contextes syntaxiques. De
plus, les unités lexicales réunies autour d'un type d'événement
partagent souvent un certain nombre de transformations syntaxiques
(Gross 1975, Levin 1993).  Les algorithmes élaborés permettent
d'exploiter ces similarités afin de proposer de regrouper autour d'un
concept d'événement a) les unités lexicales (verbes, phrases à verbe
support) qui dénotent le même événement, 2) pour chaque verbe, les
noms déverbaux correspondants, 3) les équivalences entre les arguments
du verbe et ceux du nom déverbal, 4) les équivalences entre les
diverses fonctions syntaxiques dans le schéma de sous-catégorisation
verbal qui remplissent les mêmes roles sémantiques (c'est-à-dire les
transformations syntaxiques).  Pour surmonter le problème du manque de
données (data sparseness) et améliorer les résultats du regroupement,
les algorithmes d'apprentissage peuvent être réitérés en utilisant les
résultats de la classification pour regrouper les éléments de l'espace
de traits et filtrer les traits pertinents pour la tâche.
Une validation manuelle de la ressource est envisagée. Une interface
graphique permettra aux validateurs d'accepter ou de rejeter les
propositions de schémas à la base d'une série d'exaples tirés du
corpus.

prochain séminaire :

10/12: Ph. de Groote

Site web du séminaire:
http://www.linguist.univ-paris-diderot.fr/~jthuilier/sem/seminaire.html

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------