Job: Stage M2 recherche, Informatique linguistique

Tue Feb 5 19:23:44 UTC 2008

Date: Mon, 04 Feb 2008 10:51:06 +0100
From: Isabelle Tellier <isabelle.tellier at univ-lille3.fr>
Message-ID: <47A6E00A.1080908 at univ-lille3.fr>
X-url: http://www.grappa.univ-lille3.fr/cgi-bin/twiki/view/Mostrare
X-url: http://treecrf.gforge.inria.fr/
X-url: http://www.grappa.univ-lille3.fr/~jousse
X-url: http://treecrf.gforge.inria.fr/
X-url: http://www.grappa.univ-lille3.fr/~tellier/stageM1.html
X-url: http://www.grappa.univ-lille3.fr/~tellier/crotal.html
X-url: http://www.grappa.univ-lille3.fr/~tellier

  M2 informatique : proposition de sujet de stage

    Annotation sémantique de corpus arborés

Annoter des fichiers XML consiste à ajouter certaines étiquettes
(parmi un vocabulaire fini) aux noeuds et aux feuilles de ces arbres
XML. Au sein du projet Mostrare
http://www.grappa.univ-lille3.fr/cgi-bin/twiki/view/Mostrare de
l'Inria Lille-Nord Europe, une plateforme appelée XCRF
http://treecrf.gforge.inria.fr/ a été conçue et programmée pour
apprendre automatiquement à annoter des documents XML à partir
d'exemples de documents déjà annotés. Cette plateforme, issue des
travaux de thèse de Florent Jousse
http://www.grappa.univ-lille3.fr/%7Ejousse, met en oeuvre la théorie
des Conditional Random Fields (CRF).

En Traitement Automatique du Langage Naturel (TALN), on parle de
/corpus arboré/ quand on dispose d'un ensemble de phrases d'une
certaine langue et de leur arbre d'analyse syntaxique (comme ceux que
produisent les grammaires formelles "context-free" ou
algébriques). Les feuilles de ces arbres sont les mots des phrases,
les noeuds sont les symboles non terminaux de la grammaire
(correspondant à "nom commun", "adjectif", "groupe nominal",
etc). Plusieurs corpus arborés au format XML (dont un en français)
sont maintenant disponibles à des fins de recherche.

L'objectif de ce stage est d'appliquer la plateforme XCRF
http://treecrf.gforge.inria.fr/ à des corpus arborés, dans le cas où
on cherche à annoter les arbres syntaxiques disponibles avec des
informations /sémantiques/ ou "thématiques" (du genre "sujet",
"objet"...). On dispose en général de certaines phrases du corpus déjà
annotées avec ces informations : elles servent d'exemples.

Un premier stage de niveau M1
http://www.grappa.univ-lille3.fr/%7Etellier/stageM1.html avait déjà
commencé cette tâche l'an dernier. Les résultats mitigés obtenus
incitent à essayer d'adapter mieux l'outil disponible aux spécificités
des données linguistiques. On envisage les pistes suivantes :

    * enrichissement du vocabulaire d'annotation pour appliquer des
      pré-traitements sur les arbres syntaxiques (élagages,
      restructurations)
    * apprentissage automatique de certaines "fonctions de
      caractéristiques" par des techniques inspirées de l'inférence
      grammaticale
    * traduction sous forme de "fonctions de caractéristiques" de
      consignes d'annotation ou de ressources/connaissances
      linguistiques disponibles indépendamment du corpus

Ce travail entre dans le cadre du projet ANR CroTAL
http://www.grappa.univ-lille3.fr/%7Etellier/crotal.html (CRFs pour le
TAL), qui démarre en janvier 2008. Une rémunération est prévue dans ce
projet pour les stages de niveaux M2.

_Compétences requises :_ un langage de scrits (Perl, Python ou Shell)
pour manipuler les fichiers XML, Java (langage dans lequel est écrite
la plateforme), des connaissances sur XML et Xpath, un intérêt pour se
mettre au traitement automatique du langage naturel

L'encadrement de ce stage sera assuré principalement par Isabelle
Tellier http://www.grappa.univ-lille3.fr/%7Etellier (MdC en
informatique à Lille3) et Antonio Balvet (MdC en sciences du langage à
Lille3, qui a participé à l'annotation manuelle du corpus arboré du
français).

lieu : Lille
contacter : *isabelle.tellier at univ-lille3.fr*

      Bibliographie :

    * Florent Jousse, Rémi Gilleron, Isabelle Tellier, Marc Tommasi :
      /Champs conditionnels aléatoires pour l'annotation d'arbres/,
      actes de CAP06, p.171-186
    * John D. Lafferty, Andrew Mc Callum and Fernando Pereira :
      /conditional random fileds : probabilistic models for segmenting
      and labeling sequence/, actes de ICML 2001, p.282-289.
    * Andrew Mc Callum, W. Li : /Early results for named entity
      recognition with conditional random fields/ actes de CoNNL 2003.

-- 
Isabelle Tellier
Grappa et Inria Futurs
UFR IDIST
université Charles de Gaulle-Lille3
BP 60149
59 653 Villeneuve d'Ascq Cedex
France
tel : 03 20 41 61 78
fax : 03 20 41 67 70
mel : isabelle.tellier at univ-lille3.fr
web : http://www.grappa.univ-lille3.fr/~tellier

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------