Job: Stage CEA LIST, Associer desambiguisation semantique et annotation en roles semantiques pour l'analyse de textes

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sun Jan 23 11:31:28 UTC 2011


Date: Fri, 21 Jan 2011 15:15:47 +0100
From: Gaël de Chalendar <Gael.de-Chalendar at cea.fr>
Message-Id: <201101211515.48165.Gael.de-Chalendar at cea.fr>

Stage de Master2 Recherche pouvant donner lieu à poursuite en thèse. 

Les applications qui utilisent une analyse linguistique des textes
sont nombreuses: veille stratégique, résumé automatique,
Question-Réponse, traduction automatique, etc. Pendant longtemps, à
défaut de capacités suffisantes des analyseurs linguistiques, on a
supposé que la sémantique serait très utile dans de telles
applications, sans pouvoir le vérifier expérimentalement. Désormais,
sans que ce soit un problème résolu, l'analyse syntaxique est
suffisamment performante pour pouvoir développer et exploiter des
méthodes d'analyse sémantique à échelle réelle [Clark & Harrison,
2008].

Une précédente thèse au Laboratoire Vision et Ingénierie des Contenus
du CEA LIST [Mouton, 2010] a permis d'obtenir des ressources
sémantiques en français de deux types à partir de la traduction de
ressources anglaises: une base lexicale du type WordNet (JAWS) et une
base de cadres sémantiques de type FrameNet.

Ces deux ressources ont permis de développer un outil de
désambigüisation sémantique (Word Sense Disambigation, WSD) et un
autre d'annotation en rôles sémantiques (Semantic Role Labeling). Ces
deux outils travaillent indépendamment et pourraient être utilisés
dans diverses applications. Le présent stage, conçu comme préalable à
une thèse de doctorat aura pour but de reprendre ce travail là où il
s'est terminé et d'aller au-delà, en direction d'un but ultime qui
serait une analyse sémantique complète des textes.

L'objectif sera d'étudier la complémentarité des deux outils et la
possibilité de les intégrer en un seul qui profitera des capacités de
chacun, la désambigüisation devant faciliter l'annotation en rôles et
celle-ci devant fournir des indices supplémentaires pour la
désambigüisation [Che & Liu, 2010]. Il faudra aussi étendre les
ressources apprises aux verbes et adjectifs, seul le lexique nominal
ayant été traité dans la thèse de Claire Mouton. Ce stage pourra par
ailleurs commencer l'exploration d'une partie prévue pour lé thèse,
l'exploitation de nouvelles informations syntaxiques qui aideront
l'analyse sémantique, en particulier l'intégration dans l'analyseur
linguistique LIMA du CEA LIST d'informations sur la valence verbale
par l'intermédiaire du lexique syntaxique Lefff [Sagot & Danlos, 2009]
de l'équipe Alpage (INRIA et Université Paris VII).

Références:
Wanxiang Che & Ting Liu. Jointly Modeling WSD and SRL with Markov
Logic.  Proceedings of the 23rd International Conference on
Computational Linguistics (Coling 2010), 2010.

Clark Peter and Harrison Phil. Boeing's NLP System and the Challenges
of Semantic Representation. In Proc SIGSEM Symposium on Text
Processing (STEP'08), Venice, Italy, 2008.

Mouton Claire. Ressources et méthodes semi-supervisées pour l'analyse
sémantique de texte en français, Thèse de doctorat de l'Université
Paris 11, 2010.

Sagot Benoît et Danlos Laurence (2009). Constructions pronominales
dans Dicovalence et le lexique-grammaire – Intégration dans le Lefff
. In Linguisticæ Investigationes 32(2) (pages 293-304).


Le stage se fera dans le Laboratoire Vision et Ingénierie des Contenus
du CEA LIST sous la direction de Gaël de Chalendar.

Gael de Chalendar
CEA LIST
Centre de Fontenay-aux-Roses
Laboratoire Vision et Ingénierie des Contenus
(Vision and Content Engineering Laboratory)
Bat. 38-2 ; 18, rue du Panorama ; BP 6
92265 Fontenay aux Roses Cedex ; France
Tél.:01.46.54.80.18 ; Fax.:01.46.54.75.80
Email : Gael.D.O.T.de-Chalendar.A at T.cea.D.O.T.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list