These: Claire Mouton, Ressources et methodes semi-supervisees pour l'analyse semantique

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Dec 8 21:34:07 UTC 2010


Date: Mon, 6 Dec 2010 12:26:27 +0100
From: Claire Mouton <claire.mouton at gmail.com>
Message-ID: <AANLkTik=9eQnZHp+YRtgWNEpOy=_pSZNzu2MPZngP7MM at mail.gmail.com>

Bonjour,

Vous êtes cordialement invités à venir assister à la soutenance de ma
thèse intitulée


*Ressources et méthodes semi-supervisées pour l'analyse sémantique de
texte en français*


le vendredi 17 décembre à 15h au LIMSI (salle de conférences du
bâtiment 508 sur le campus de l'Université Paris Sud - Orsay).



Des informations pratiques pour se rendre au LIMSI sont disponibles
sur la page suivante : http://www.limsi.fr/Pratique/acces/


LIMSI-CNRS
Bâtiments 508
Rue John von Neumann
Université Paris-Sud
91403 ORSAY


Vous êtes bien entendu également invités au pot qui suivra.


Cordialement,
Claire Mouton


----------------------------------------------
*Composition du jury : *
M. Gaël de Chalendar (Co-directeur)
Mme Claire Gardent (Rapporteuse)
M. Gregory Grefenstette (Examinateur)
M. Joseph Mariani (Examinateur)
M. Emmanuel Morin (Rapporteur)
M. Benoît Sagot (Examinateur)
Mme Anne Vilnat (Directrice)

----------------------------------------------
*Résumé : *

Pouvoir chercher des informations sur un niveau sémantique plutôt que
purement lexical devrait améliorer la recherche d'informations. Les
travaux que nous présentons concernent plus spécifiquement l'analyse
sémantique de texte en français. La problématique liée au traitement
du français réside dans le fait qu'il n'existe que peu de ressources
sémantiques et de corpus annotés pour cette langue. Rendre possible
une telle analyse implique donc d'une part de pourvoir aux besoins en
ressources linguistiques françaises, et d'autre part, de trouver des
méthodes alternatives ne nécessitant pas de corpus français
manuellement annoté. Nous abordons dans ces travaux deux tâches
d'analyse sémantique que sont la *désambiguïsation lexicale* et
l'*analyse en rôles sémantiques*.

 Afin de traiter le problème de la désambiguïsation lexicale, nous
commençons par la constitution automatique de nouvelles ressources
françaises pour cette tâche. Nous décrivons dans un premier temps une
méthode de traduction automatique des *synsets* nominaux de WordNet
vers le français à partir de dictionnaires bilingues et d'espaces
distributionnels.  Puis, nous constituons une ressource
automatiquement en proposant une adaptation de deux méthodes
d'induction de sens existantes. L'originalité des clusters de sens
ainsi constitués est de contenir des mots dont la syntaxe est proche
de celle des mots source. Ces clusters sont alors exploités dans
l'algorithme que nous proposons pour la désambiguïsation
elle-même. Nous proposons également des recommandations concernant
l'intégration d'un tel module dans un système de recherche de
documents.

 Nous abordons ensuite le problème de l'annotation en rôles
sémantiques. De la même façon, nous proposons d'abord des méthodes de
traduction et d'enrichissement d'une ressource anglaise vers le
français (FrameNet). Nous adoptons alors une approche semi-supervisée
exploitant les espaces distributionnels pour l'annotation en rôles
sémantiques. Nous menons également une réflexion sur l'usage des rôles
sémantiques en recherche d'information et plus particulièrement dans
le cadre des systèmes de réponses à des questions posées en langage
naturel.

----------------------------------------------
*Abstract* :

The possibility of performing semantic rather than purely lexical
search should improve information retrieval. Presented works deal more
specifically with semantic analysis on the French language. Processing
of French language is more complex due to the lack of semantic
resources and corpora for this language. Thus, make such an analysis
possible implies on the one hand to provide for needs of French
linguistic resources, and on the other hand, to find alternate methods
which do not require any manually annotated French corpus. We address
in these work two semantic analysis tasks, namely *word sense
disambiguation* and *semantic role labeling*.

  In order to handle the Word sense disambiguation task, we begin with
the building of new French resources dedicated to this task. We first
describe a method to automatically translate the nominal *synsets*of
WordNet to French, by using bilingual dictionaries and distributional
spaces. Secondly, we put forward an adaptation of two existing methods
of word sense induction, in order to acquire a word senses resource in
a fully automatic way. Moreover, the sense clusters built in the
latter step show originality as they contain words whose syntax is
similar to the the syntax of the given ambiguous words. The so-called
sense clusters are then used in the word sense disambiguation
algorithm that we put forward for the disambiguation itself.  We also
provide recommendations in order to integrate such a module in a
textual search engine.

  We then address the Semantic role labeling issue. In a similar
fashion, we first propose methods to translate and enrich an English
resource into French (FrameNet). We then adopt a semi-supervised
approach which uses the distributional spaces to label semantic
roles. We also consider the use of semantic roles in information
retrieval and more specifically in the scope of question answering
systems.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list