These: Marion Laignelet, Analyse discursive pour le reperage automatique de segments obsolescents

Fri Sep 11 18:38:32 UTC 2009

Date: Thu, 10 Sep 2009 14:53:03 +0200
From: Marion Laignelet <marion.laignelet at univ-tlse2.fr>
Message-ID: <4AA8F6AF.7080203 at univ-tlse2.fr>

J'ai le plaisir de vous convier à ma soutenance de thèse de doctorat
intitulée

"Analyse discursive pour le repérage automatique de segments
obsolescents dans des documents encyclopédiques."

Elle aura lieu le Vendredi 25 septembre 2009 à 14H00, en salle D29,
Université de Toulouse 2 - Le Mirail, Toulouse

La thèse est dirigée par Marie-Paule PÉRY-WOODLEY et co-encadrée par
Ludovic TANGUY, et réalisée au laboratoire CLLE-ERSS.

La soutenance de thèse se fera devant un jury composé de :

Liesbeth DEGAND, rapporteure, Université de Louvain, Belgique
Patrice ENJALBERT, rapporteur, Université de Caen
Agnès TUTIN, examinatrice, Université de Grenoble 3
Claude De LOUPY  examinateur, Laboratoire Syllabs, Paris
Marie-Paule PÉRY-WOODLEY, directrice, Université de Toulouse 2 - Le
Mirail
Ludovic TANGUY, encadrant, Université de Toulouse 2 - Le Mirail

La soutenance se fera en Français. Elle est publique et vous êtes les
bienvenus dans la limite des places disponibles. Elle sera suivie d'un
pot, sur place.

**************

***Résumé***

La question de la mise à jour des documents se pose dans de nombreux
domaines. Elle est centrale dans le domaine de l'édition
encyclopédique~: les ouvrages publiés doivent être continuellement
vérifiés afin de ne pas mettre en avant des informations fausses ou
altérées par le temps.

Dans ce travail, nous proposons la mise en \oe uvre d'un prototype
d'aide à la mise à jour~: l'objectif visé est le repérage automatique
de zones textuelles dans lesquelles l'information est potentiellement
obsolescente.

Pour y répondre, nous proposons la prise en compte d'indices
linguistiques et discursifs variés et faisant appel à des niveaux
d'analyses différents. L'obsolescence étant un phénomène non
linguistique pour lequel il n'existe pas d'outil rhétorique dédié,
notre hypothèse est qu'il faut considérer les indices linguistiques et
discursifs en termes de complémentarité, de combinaisons.

Sur un corpus annoté manuellement par des experts, nous projetons un
repérage automatique d'un grand nombre d'indices linguistiques,
discursifs et structurels. Un système d'apprentissage automatique est
ensuite mis en place afin de faire émerger les configurations
d'indices pertinentes dans les segments obsolescents caractérisés par
les experts.

Notre double finalité est remplie~: nous proposons une description
fine de l'obsolescence dans notre corpus de textes encyclopédiques
ainsi qu'un prototype logiciel d'aide à la mise à jour des textes.

Une double évaluation a été menée~: par validation croisée sur le
corpus d'apprentissage et par les experts sur un corpus de test. Les
résultats sont encourageants. Ils nous amènent à faire évoluer la
définition du segment d'obsolescence, sur la base des «~découvertes~»
émergeant des corpus et dans l'interaction avec les besoins des
experts concernant l'aide à la mise à jour. Ils montrent également les
limites des annotations automatiques des indices linguistiques et
discursifs.

Enfin, la reproductibilité de notre système doit être évaluée ainsi
que la pertinence et la réutilisabilité du modèle de représentation
des données présenté.

***Abstract***

The question of document updating arises in many areas. It is central
to the field of encyclopedia publishing: encyclopedias must be
constantly checked in order not to put forward wrong or time-altered
information.  In this study, we describe the implementation of a
prototype of an aid to updating. Its aims is to automatically locate
zones of text in which information might be obsolescent.

The method we propose takes into account various linguistic and
discursive cues calling on different levels of analysis. As
obsolescence is a non-linguistic phenomenon for which no specific
rhetorical tool exists, our hypothesis is that linguistic and
discursive cues must be considered in terms of complementarity and
combinations.

Our corpus is first manually annotated by experts for zones of
obsolescence. We then apply automatic tagging of a large number of
linguistic, discursive and structural cues onto the annotated
corpus. A machine learning system is then implemented to bring out
relevant cue configurations in the obsolescent segments characterized
by the experts.

Both our objectives have been achieved: we propose a detailed
description of obsolescence in our corpus of encyclopaedic texts as
well as a prototype aid to updating.

A double evaluation was carried out: by cross validation on the corpus
used for machine learning and by experts on a test corpus. Results are
encouraging. They lead us to an evolution of the definition of
obsolescent segments, first, on the basis of the ``discoveries''
emerging from our corpora and also through interaction with the needs
of the experts with respect to an aid to updating. The results also
show limits in the automatic tagging of the linguistic and discursive
cues.

Finally, the reproducibility of our system must be evaluated as well
as the relevance and reusability of the model of data representation.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------