These: Houda Bouamor, Etude de la paraphrase en TAL
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Jun 1 19:44:57 UTC 2012
Date: Fri, 01 Jun 2012 09:30:08 +0200
From: Houda Bouamor <houda.bouamor at limsi.fr>
Message-ID: <4FC86F80.8070409 at limsi.fr>
Bonjour,
J'ai l'immense plaisir de vous inviter à la soutenance de ma thèse
intitulée /«*Étude de la paraphrase en Traitement Automatique des
Langues*»/ qui aura lieu le Lundi 11 Juin 2012 à 14h30 dans la salle de
conférence du LIMSI-CNRS.
Vous trouverez plus d'informations pour se rendre au CNRS-LIMSI à
l'adresse suivante http://www.limsi.fr/Pratique/acces/.
Bien évidemment, vous êtes conviés au traditionnel pot qui suivra.
J'espère vous y voir nombreux le jour venu.
Le jury sera composé de :
*Rapporteurs*
Yves Lepage, Professeur à l'Université de Waseda
Emmanuel Morin, Professeur à l'Université de Nantes
*Examinateurs*
Adeline Nazarenko, Professeure à l'Université Paris-Nord
Philippe Langlais, Professeur à l'Université de Montréal
François Yvon, Professeur à l'Université Paris Sud
*Directeurs*
Anne Vilnat, Professeure à l'Université Paris Sud
Aurélien Max, Maître de Conférences à l'Université Paris-Sud
*Résumé*
La variabilité en langue est une source majeure de difficultés dans la
plupart des applications du traitement automatique des langues. Capturer
automatiquement des équivalences sémantiques entre des unités de texte
ayant des formes différentes est une tâche complexe mais qui s'avère
indispensable dans de nombreux contextes.
Dans cette thèse, nous proposons une étude détaillée de la tâche
d'acquisition de paraphrases sous-phrastiques à partir de paires
d'énoncés sémantiquement liés. Nous démontrons empiriquement que les
corpus parallèles monolingues, bien qu'extrêmement rares, constituent le
type de ressource le plus adapté pour ce genre d'étude. Nos expériences
mettent en jeu cinq techniques d'acquisition, représentatives de
différentes approches et connaissances, en anglais et en français. Afin
d'améliorer la performance en acquisition, nous réalisons la combinaison
des paraphrases produites par ces techniques par une validation reposant
sur un classifieur automatique à maximum d'entropie bi-classe. Un
résultat important de notre étude est l'identification de paraphrases
qui défient actuellement les techniques étudiées, lesquelles sont
classées et quantifiées en anglais et français.
Nous examinons également dans cette thèse l'impact de la langue, du type
du corpus et de la comparabilité des paires des énoncés utilisés sur la
tâche d'acquisition de paraphrases sous-phrastiques. Nous présentons le
résultat d'une analyse de la performance des différentes méthodes
testées en fonction des difficultés d'alignement des paires de
paraphrases d'énoncés. Nous donnons, ensuite, un compte rendu descriptif
et quantitatif des caractéristiques des paraphrases trouvées dans les
différents types de corpus étudiés ainsi que celles qui défient les
approches actuelles d'identification automatique.
Mots clés : Corpus monolingues, Acquisition de paraphrase,
Classification automatique de paraphrase, Typologie de paraphrase
Houda Bouamor
LIMSI-CNRS & Univ. Paris Sud
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list