These: Fabien Poulard, Detection de derivation de texte

Tue Mar 22 20:52:34 UTC 2011

Date: Mon, 21 Mar 2011 16:33:38 +0100
From: Fabien Poulard <fabien.poulard at univ-nantes.fr>
Message-ID: <4D876FD2.9080605 at univ-nantes.fr>
X-url: http://www.fabienpoulard.info/post/2011/03/17/Je-soutiens-ma-thèse-!
X-url: http://www.fabienpoulard.info/post/2011/03/17/I-m-going-to-defend-my-PhD-thesis-!

/** English version below **/

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse qui se
déroulera le jeudi 24 mars 2011 à 9h30 dans la salle 3 du LINA.

Plus d'informations :
http://www.fabienpoulard.info/post/2011/03/17/Je-soutiens-ma-thèse-!

Cordialement,

*Titre de la thèse :*
Détection de dérivation de texte

*Résumé de la thèse :*
L'Internet permet la production et la diffusion de contenu sans effort
et à grande vitesse. Cela pose la question du contrôle de leur
origine.  Ce travail s'intéresse à la détection des liens de
dérivation entre des textes. Un lien de dérivation unie un texte
dérivé et les textes préexistants à partir desquels il a été
écrit. Nous nous sommes concentré sur la tâche d'identification des
textes dérivés étant donné un texte source, et ce pour différentes
formes de dérivation. Notre première contribution consiste en la
définition d'un cadre théorique posant les concepts de la dérivation
ainsi qu'un modèle mulitidimensionnel cadrant les différentes formes
de dérivation. Nous avons ensuite mis en place un cadre expérimental
constitué d'une infrastructure logicielle libre, de corpus
d'évaluation et d'un protocole expérimental inspiré de la RI. Les
corpus Piithie et Wikinews que nous avons développé sont à notre
connaissance les seuls corpus en français pour la détection de
dérivation. Finalement, nous avons exploré différentes méthodes de
détection fondées sur l'approche par signature.  Nous avons notamment
introduit les notions de singularité et d'invariance afin de guider le
choix des descripteurs utilisés pour la modélisation des textes en vue
de leur comparaison. Nos résultats montrent que le choix motivé des
descripteurs, linguistiques notamment, permet de réduire la taille de
la modélisation des textes, et par conséquence des coûts de la
méthode, tout en offrant des performances comparables à l'approche
état de l'art beaucoup plus volumineuse.

*Mots-clés :*
détection de dérivation, révisions, plagiat, approche par signature,
mesures de similarité, recherche d'information

*Jury de la thèse :*
M. François Yvon, Professeur à l'Université de Paris Sud 11
(rapporteur)
M. Patrice Bellot, Maître de conférences à l'Université d'Avignon
(rapporteur)
Mme Josiane Mothe, Professeur à l'Institut Universitaire de Formation
des Maître de Toulouse (examinateur)
M. Claude de Loupy, Dirigeant et co-fondateur de Syllabs (invité)
Mme Béatrice Daille, Professeur à l'Université de Nantes (directrice
de thèse)
M. Nicolas Hernandez, Maître de conférences à l'Université de Nantes
(encadrant)

****************

Apologies for cross-postings. Please forward to interested colleagues
and mailing lists.

I am glad to invite you to my thesis defense that will take place on
March, 24 2011 at 9:30 am in room 3 of LINA (Nantes).

More information :
http://www.fabienpoulard.info/post/2011/03/17/I-m-going-to-defend-my-PhD-thesis-!

Cordially,

*Title:*
Detecting textual derivatives

*Abstract:*
Thanks to the Internet, the production and publication of content is
possible with ease and speed. This possibility raises the issue of
controling the origins of this content. This work focuses on detecting
derivation links between texts. A derivation link associates a
derivative text and the pre-existing texts from which it was
written. We focused on the task of identifying derivative texts given
a source text for various forms of derivation. Our first contribution
is the definition of a theoretical framework defines the concept of
derivation as well as a model framing the different forms of
derivation. Then, we set up an experimental framework consisting of
free software tools, evaluation corpora and evaluation metrics based
on IR. The Piithie and Wikinews corpora we have developed are to our
knowledge the only ones in French for the detection of derivation
links. Finally, we explored different methods of detection based on
the signature-based approach. In particular, we have introduced the
notions of specificity and invariance to guide the choice of
descriptors used to modelize the texts in the expectation of their
comparison. Our results show that the choice of motivated descriptors,
including linguistically motivated ones, can reduce the size of the
modelization of texts, and therefore the cost of the method, while
offering performances comparable to the much more voluminous state of
the art approach.

*Keywords:*
detection of derivation, revisions, plagiarism, signature approach,
similarity metrics, information retrieval

Fabien Poulard
LINA (UMR CNRS 6241) / Université de Nantes

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------