Job: Stage Master2, Associer desambiguisation semantique et annotation en roles semantiques pour l'analyse de textes

Fri Jan 13 21:28:42 UTC 2012

Date: Wed, 11 Jan 2012 16:02:41 +0100
From: Gaël de Chalendar <Gael.de-Chalendar at cea.fr>
Message-ID: <2353131.qGMbsNsH0m at localhost.localdomain>

Les applications qui utilisent une analyse linguistique des textes sont
nombreuses: veille stratégique, résumé automatique, Question-Réponse,
traduction automatique, etc. Pendant longtemps, à défaut de capacités
suffisantes des analyseurs linguistiques, on a supposé que la sémantique
serait très utile dans de telles applications, sans pouvoir le vérifier
expérimentalement. Désormais, sans que ce soit un problème résolu,
l'analyse syntaxique est suffisamment performante pour pouvoir
développer et exploiter par dessus des méthodes d'analyse sémantique à
échelle réelle [Clark & Harrison, 2008].

Une précédente thèse au Laboratoire Vision et Ingénierie des Contenus du
CEA LIST [Mouton, 2010] a permis d'obtenir des ressources sémantiques en
français de deux types à partir de la traduction de ressources
anglaises: une base lexicale du type WordNet (JAWS) et une base de
cadres sémantiques de type FrameNet.

Ces deux ressources ont permis de développer un outil de
désambigüisation sémantique (Word Sense Disambigation, WSD) et un autre
d'annotation en rôles sémantiques (Semantic Role Labeling). Ces deux
outils travaillent indépendamment et pourraient être utilisés dans
diverses applications.  Le présent stage, conçu comme accompagnant une
thèse de doctorat commençant cette année aura pour but de reprendre ce
travail là où il s'est terminé et d'aller au-delà, en direction d'un but
ultime qui serait une analyse sémantique complète des textes.

L'objectif sera d'étudier la complémentarité des deux outils et la
possibilité de les intégrer en un seul qui profitera des capacités de
chacun, la désambigüisation devant faciliter l'annotation en rôles et
celle-ci devant fournir des indices supplémentaires pour la
désambigüisation [Che & Liu, 2010]. Il faudra aussi étendre les
ressources apprises aux verbes et adjectifs, seul le lexique nominal
ayant été traité dans la thèse de Claire Mouton.

Références:

Wanxiang Che & Ting Liu. Jointly Modeling WSD and SRL with Markov Logic.
Proceedings of the 23rd International Conference on Computational
Linguistics (Coling 2010), 2010.

Clark Peter and Harrison Phil. Boeing's NLP System and the Challenges of
Semantic Representation. In Proc SIGSEM Symposium on Text Processing
(STEP'08), Venice, Italy, 2008.

Mouton Claire. Ressources et méthodes semi-supervisées pour l'analyse
sémantique de texte en français, Thèse de doctorat de l'Université Paris
11, 2010.

Sagot Benoît et Danlos Laurence (2009). Constructions pronominales dans
Dicovalence et le lexique-grammaire – Intégration dans le Lefff . In
Linguisticæ Investigationes 32(2) (pages 293-304).

Gael de Chalendar
CEA LIST
Laboratoire Vision et Ingénierie des Contenus
(Vision and Content Engineering Laboratory)

CEA SACLAY - NANO INNOV
BAT. 861
Point courier 173
91191 GIF SUR YVETTE

Tél.:+33.1.69.08.01.50Fax:+33.1.69.08.01.15 
Email : Gael.D.O.T.de-Chalendar.A at T.cea.D.O.T.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------