These: Laurence Longo, Vers des moteurs de recherche intelligents

Thierry Hamon hamon at LIMSI.FR
Wed Dec 4 12:56:04 UTC 2013


Date: Sat, 30 Nov 2013 19:51:20 +0100
From: Laurence Longo <laurence.longo at gmail.com>
Message-ID: <CAAN3QCx_UY=RGCVf4cgJ8srnx3xPc2t7y2f_G_EKNpmGVDmTqw at mail.gmail.com>
X-url: http://www.unistra.fr/plans/centre/72/index.html


Bonjour,

J'ai le plaisir de vous convier à la soutenance de ma thèse intitulée :
 "Vers des moteurs de recherche 'intelligents' : un outil de détection
 automatique de thèmes. Méthode basée sur l'identification automatique
 des chaînes de référence."

Elle aura lieu le jeudi 12 décembre 2013 à partir de 14h30 dans la salle
des thèses du Nouveau Patio, Campus Universitaire Esplanade, 20a rue
René Descartes, 67084 Strasbourg (plan :
http://www.unistra.fr/plans/centre/72/index.html).

La soutenance sera suivie du traditionnel pot de thèse (à partir de
18h30, en salle 0-01) auquel vous êtes chaleureusement invités.

Bien cordialement.

Laurence Longo


--------------------
Composition du jury :
---------
Mme Catherine Schnedecker - Professeur, LiLPa, Université de Strasbourg
- Directrice
Mme Amalia Todirascu - Maître de conférences, LiLPa, Université de
Strasbourg - Co-directrice
M. Yves Bestgen - Professeur, Université catholique de Louvain -
Rapporteur
M. Denis Maurel - Professeur, Université François Rabelais - Rapporteur
Mme Agnès Tutin - Professeur, Université Stendhal Grenoble -
Examinatrice
M. Frédéric Landragin - Chargé de recherche CNRS, Université Paris 3 -
Examinateur


Résumé :
--------
Cette thèse se situe dans le domaine du Traitement Automatique des
Langues et vise à optimiser la classification des documents dans les
moteurs de recherche. Les travaux se concentrent sur le développement
d’un outil de détection automatique des thèmes des documents
(ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée
allie des techniques statistiques de segmentation thématique à des
méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux,
les chaînes de référence – séquence d’expressions référentielles se
rapportant à la même entité du discours (e.g. Paul…il…cet homme) – ont
fait l’objet d’une attention particulière, car elles constituent un
indice textuel important dans la détection des thèmes (i.e. ce sont des
marqueurs d’introduction, de maintien et de changement
thématique). Ainsi, à partir d’une étude des chaînes de référence menée
dans un corpus issu de genres textuels variés (articles de journaux,
rapports publics, lois européennes, éditoriaux, roman), nous avons
développé un module d’identification automatique des chaînes de
référence RefGen qui a été évalué suivant les métriques actuelles de la
coréférence.

Mots-clés :
-----------
Détection automatique de thèmes, chaînes de référence, traitement
automatique des langues, sémantique lexicale, coréférence, genres
textuels, segmentation thématique, marqueurs linguistiques, cohésion,
linguistique de corpus


Abstract :
----------
This thesis in the field of Natural Language Processing aims at
optimizing documents classification in search engines. This work focuses
on the development of a tool that automatically detects documents topics
(ATDS-fr). Using poor knowledge, the hybrid method combines statistical
techniques for topic segmentation and linguistic methods that identify
cohesive markers. Among them, reference chains - sequences of
referential expressions referring to the same entity (e.g. Paul ... he
... this man) - have been given special attention as they are important
topic markers (i.e.  they are markers of topic introduction, maintenance
and change). Thus, from a study of reference chains extracted from a
corpus composed of various textual genres (newspapers, public reports,
European laws, editorials and novel) we developed RefGen, an automatic
reference chains identification module, which was evaluated according to
current coreference metrics.

Keywords:
---------
Topic detection, reference chains, natural language processing, lexical
semantics, coreference, textual genre, topic segmentation, linguistic
markers, cohesion, corpus linguistics

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list