Seminaire: INFOLINGU, Agata Savary, 11 juin 2012, LIGM, Universite Paris-Est, Marne-la-Vallee

Sat Jun 9 20:56:05 UTC 2012

Date: Thu, 7 Jun 2012 15:04:11 +0200
From: Myriam RAKHO <rakho.myriam at gmail.com>
Message-ID: <CAOY-MwuorTUxTKdMnewcYEcEwMzMiZ99GKyiCUTw_Qi5XiQcxw at mail.gmail.com>

************************************************************************
INFOLINGU
Le séminaire de l'équipe Informatique Linguistique
du Laboratoire d'Informatique Gaspard Monge (LIGM)
Université Paris-Est Marne-la-Vallée
************************************************************************

Date : *Le Lundi 11 juin 2012 à 10h30*

Lieu : Université Paris-Est Marne-la-Vallée
Bâtiment Copernic, 4ème étage, salle de séminaires 4B08R

Toute personne intéressée est la bienvenue.

************************************************************************

------------------------------------------------------------------------
Intervenante :
------------------------------------------------------------------------

  *Agata SAVARY* (Université François Rabelais Tours)

------------------------------------------------------------------------
Titre de la présentation :
------------------------------------------------------------------------

*   **Annotation d'entités nommées dans le Corpus National du Polonais*

------------------------------------------------------------------------
Résumé de la présentation :
------------------------------------------------------------------------

Le Corpus National du Polonais, développé par l'Académie Polonaise des
Sciences, est une grande collection de textes de 1,5 milliard de mots,
de différents genres, dans laquelle des objets de différents types sont
annotés linguistiquement : les phrases, les segments, les items
morphosyntaxiques, les mots syntaxiques, les phrases syntaxiques, les
entités nommées et les sens des mots. Un sous ensemble de 1 million de
mots de ce corpus a été annoté manuellement. Nous évoquerons la
méthodologie générale de construction d'un tel corpus multi-niveau,
ainsi que la définition de son format conforme à la norme TEI
P5. Ensuite nous présenterons de manière plus détaillée le schéma
d'annotation des entités nommées. Seront discutés certains choix
méthodologiques novateurs, tels que l'annotation des dérivés (adjectifs
relatifs et gentilés des noms propres), ainsi que des unités imbriquées
et discontinues. Nous montrerons des exemples de phénomènes
linguistiques et extra-linguistiques qui défient le schéma d'annotation
pré-établi. Les corpus annotés sont fréquemment utilisés pour
l'entraînement d'outils à base d'apprentissage automatique qui peuvent
ensuite servir à l'annotation de nouveaux corpus. Cependant, la
représentation d'annotations fines selon des méthodes classiques en
apprentissage, telles la méthode IOB, n'est pas toujours banale,
notamment en ce qui concerne des unités non contiguës ou possédant des
composants qui se chevauchent. Nous allons présenter des propositions de
solutions à ces problèmes implantées dans un outil d'annotation
automatique d'entités nommées NERF, basé sur les CRF (Conditional Random
Fields).

------------------------------------------------------------------------

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------