Sujet de these: Analyse semantique profonde des textes pour le resume automatique et le bureau semantique (CEA LIST)

Sun Apr 24 19:07:31 UTC 2011

Date: Wed, 20 Apr 2011 17:03:46 +0200
From: DE CHALENDAR Gaël 204329 <gael.de-chalendar at cea.fr>
Message-ID: <28C81D1080B38F4890D5E9D34F0352190DF889F6 at LaBeaujoire.intra.cea.fr>

Bonjour,

Veuillez trouver ci-dessous un sujet de thèse pour lequel le CEA LIST
recherche un(e) candidat(e). Malheureusement, les délais pour
candidater sont très courts puisque le dossier doit être complété
avant le 20 mai pour entrer dans le circuit amenant à sa validation
par le Haut Commissaire.

Cordialement,

Gaël de Chalendar

Titre: Analyse sémantique profonde des textes pour le résumé
automatique et le bureau sémantique

Résumé
Les applications qui utilisent une analyse linguistique des textes
sont nombreuses. Pendant longtemps, à défaut de capacités suffisantes
des analyseurs, on a supposé que la sémantique serait très utile dans
de telles applications, sans pouvoir le vérifier
expérimentalement. Désormais, l'analyse syntaxique est suffisamment
performante pour pouvoir servir de base à des méthodes d'analyse
sémantique à échelle réelle. Une précédente thèse au Laboratoire
Vision et Ingénierie des Contenus du CEA LIST a permis de développer
un outil de désambigüisation sémantique (Word Sense Disambigation,
WSD) et un autre d'annotation en rôles sémantiques (Semantic Role
Labeling). La présente thèse aura pour but de reprendre ce travail là
où il s'est terminé et d'aller au-delà, en direction d'un but ultime
qui serait une analyse sémantique complète des textes. L'un des
objectifs sera d'étudier la complémentarité des deux outils et la
possibilité de les intégrer en un seul qui profitera des capacités de
chacun. Cette partie comprendra par ailleurs l'exploitation de
nouvelles informations syntaxiques qui aideront l'analyse sémantique,
en particulier l'intégration dans l'analyseur linguistique LIMA du CEA
LIST d'informations sur la valence verbale par l'intermédiaire du
lexique syntaxique Lefff. Un deuxième objectif sera de compléter ces
éléments d'analyse sémantique avec l'analyse du niveau discursif. Par
exemple, de nombreuses formes de surface soulignent ou expriment le
point de vue de l'auteur ou son argumentation. Dans cette thèse, le
candidat poursuivra des travaux initiés au laboratoire pour tenter de
les généraliser et de se diriger vers une représentation unifiée
incluant aussi bien le sens de ces expressions que les éléments
sémantiques décrits plus haut. La représentation ainsi obtenue sera
très proche de celle des graphes conceptuels. Plusieurs applications
de la représentation sémantique obtenue sont envisagées et pourront
être implémentées en tant que prototypes. Une seule est décrite ici :
l'analyseur LIMA va être intégré au Smart Desktop de la distribution
Mandriva Linux. Celui consiste à mettre à disposition de toutes les
applications du bureau KDE un référentiel sémantique peuplé par
l'indexation automatique des mots des documents. Les résultats de
cette thèse permettront d'aller plus loin en indexant des prédicats et
leurs rôles. L'ensemble des applications envisagées représentant un
travail important, le thésard sera amené à encadrer des stages
d'ingénieur ou de master ou bien à collaborer avec d'autres chercheurs
du laboratoire sur ces sujets.

Exposé du sujet
Les applications qui utilisent une analyse linguistique des textes
sont nombreuses: veille stratégique, résumé automatique,
Question-Réponse, traduction automatique, etc. Pendant longtemps, à
défaut de capacités suffisantes des analyseurs linguistiques, on a
supposé que la sémantique serait très utile dans de telles
applications, sans pouvoir le vérifier expérimentalement. Désormais,
sans que ce soit un problème résolu, l'analyse syntaxique est
suffisamment performante pour pouvoir développer et exploiter des
méthodes d'analyse sémantique à échelle réelle [Pradhan & al., 2003 ;
Clark & Harrison, 2008]. Une précédente thèse au Laboratoire Vision et
Ingénierie des Contenus du CEA LIST [Mouton, 2010] a permis d'obtenir
des ressources sémantiques en français de deux types à partir de la
traduction de ressources anglaises: une base lexicale du type WordNet
(JAWS) et une base de cadres sémantiques de type FrameNet. Ces deux
ressources ont permis de développer un outil de désambigüisation
sémantique (Word Sense Disambigation, WSD) et un autre d'annotation en
rôles sémantiques (Semantic Role Labeling). Ces deux outils
travaillent indépendamment et pourraient être utilisés dans diverses
applications. La présente thèse aura pour but de reprendre ce travail
là où il s'est terminé et d'aller au-delà, en direction d'un but
ultime qui serait une analyse sémantique complète des textes. L'un des
objectifs sera d'étudier la complémentarité des deux outils et la
possibilité de les intégrer en un seul qui profitera des capacités de
chacun, la désambigüisation devant faciliter l'annotation en rôles et
celle-ci devant fournir des indices supplémentaires pour la
désambigüisation [Che & Liu, 2010]. Il faudra aussi étendre les
ressources apprises aux verbes et adjectifs, seul le lexique nominal
ayant été traité dans la thèse de Claire Mouton. Cette partie
comprendra par ailleurs l'exploitation de nouvelles informations
syntaxiques qui aideront l'analyse sémantique, en particulier
l'intégration dans l'analyseur linguistique LIMA du CEA LIST
d'informations sur la valence verbale par l'intermédiaire du lexique
syntaxique Lefff [Sagot & Danlos, 2009] de l'équipe Alpage (INRIA et
Université Paris VII). Finalement, le candidat étudiera les techniques
permettant de résoudre une des difficultés rencontrées dans la thèse
précédente : la mauvaise qualité du mapping entre clusters définissant
les sens des mots et les entrées de JAWS. Un deuxième objectif sera de
compléter ces éléments d'analyse sémantique qui restent au niveau
lexical avec l'analyse du niveau discursif. De nombreuses formes de
surface soulignent ou expriment le point de vue de l'auteur ou son
argumentation. De même les verbes de modalité peuvent exprimer le
niveau de certitude de ce qui est exprimé par exemple. Un premier
travail a été effectué au laboratoire pour reconnaître ces
expressions. Elles sont utilisées dans un système de résumé
automatique pour adapter le poids de chaque phrase et ainsi la
sélectionner ou non. Dans cette thèse, le candidat poursuivra ces
travaux pour tenter de les généraliser et de se diriger vers une
représentation unifiée incluant aussi bien le sens de ces expressions
que les éléments sémantiques décrits plus haut [Leskovec & al.,
2004]. La représentation ainsi obtenue sera très proche de celle des
graphes conceptuels. Plusieurs applications de la représentation
sémantique obtenue sont envisagées et pourront être implémentées en
tant que prototypes. Tout d'abord, l'analyseur LIMA va être intégré,
dans le cadre d'un projet en cours de montage (Lilibus), au Smart
Desktop de la distribution Mandriva Linux. Celui consiste à mettre à
disposition de toutes les applications du bureau KDE un référentiel
sémantique (Nepomuk) peuplé par des annotations manuelles de
l'utilisateur et par l'indexation automatique des documents effectué
par l'indexeur Strigi. Lilibus consistera à permettre d'indexer des
informations plus précises que les simples mots. Pour le moment, sont
considérées les entités nommées ou les relations entre termes. Les
résultats de cette thèse permettront d'aller encore plus loin en
indexant des prédicats et leurs rôles. L'outil de résumé automatique
du laboratoire pourra aussi être amélioré selon plusieurs axes: choix
des phrases à sélectionner, génération du texte final mais aussi
support du résumé évolutif qui peut consister à ajouter à un premier
résumé des informations venant de nouveaux documents portant sur le
même sujet. Une dernière application possible de ces travaux sera le
système de Question-Réponse (Question & Answer, QA) du laboratoire qui
pourrait profiter d'une telle représentation des textes et des
questions. En effet, elles seraient un bon support pour des techniques
de Textual Entailment qui obtiennent de très bons résultats sur ce
type de tâches. L'ensemble de ces applications représentant un travail
important, le thésard sera amené à encadrer des stages d'ingénieur ou
de master ou bien à collaborer avec d'autres chercheurs du laboratoire
sur ces sujets.

Références:
Wanxiang Che & Ting Liu. Jointly Modeling WSD and SRL with Markov
Logic. Proceedings of the 23rd International Conference on
Computational Linguistics (Coling 2010), 2010.

Clark Peter and Harrison Phil. Boeing's NLP System and the Challenges
of Semantic Representation. In Proc SIGSEM Symposium on Text
Processing (STEP'08), Venice, Italy, 2008.

Leskovec Jure, Grobelnik Marko and Milic-Frayling Natasa. Learning
Sub-structures of Document Semantic Graphs for Document
Summarization. Workshop on Link Analysis and Group Detection
(LinkKDD), 2004.

Mouton Claire. Ressources et méthodes semi-supervisées pour l'analyse
sémantique de texte en français, Thèse de doctorat de l'Université
Paris 11, 2010.

Sameer Pradhan, Kadri Hacioglu, Wayne Ward, James H. Martin, and
Daniel Jurafsky. 2003. Semantic Role Parsing: Adding Semantic
Structure to Unstructured Text. In Proceedings of the Third IEEE
International Conference on Data Mining (ICDM '03). IEEE Computer
Society, Washington, DC, USA, 629-.

Sagot Benoît et Danlos Laurence (2009). Constructions pronominales
dans Dicovalence et le lexiquegrammaire - Intégration dans le
Lefff. In Linguisticæ Investigationes 32(2) (pages 293-304).

Laboratoire d'accueil : CEA LIST / DIASI / LVIC/Vision & Ingénierie
des Contenus
Fontenay-aux-Roses

Encadrement de la thèse au CEA
Gaël DE CHALENDAR
Téléphone 01.46.54.80.18 / 06.76.36.70.31
Gael.de-Chalendar at cea.fr

Directeur de thèse
Laurence DANLOS, Université Paris 7, INRIA Alpage

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------