These: Clement de Groc, Collecte orientee sur le Web pour la recherche d'information specialisee

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sat May 25 19:45:56 UTC 2013


Date: Thu, 23 May 2013 09:59:39 +0200
From: cdegroc <cdegroc at limsi.fr>
Message-ID: <211c5131405d117594e676c890bb525a at limsi.fr>
X-url: http://perso.limsi.fr/cdegroc/

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée
"Collecte orientée sur le Web pour la recherche d'information
spécialisée".
La soutenance aura lieu le mercredi 5 juin 2013 à 10h en salle de 
conférences du LIMSI-CNRS (Bâtiment 508, Université Paris Sud, Orsay ; 
http://www.limsi.fr).
Bien évidemment, vous êtes également conviés au traditionnel pot qui
suivra.

Le jury de soutenance sera composé de :

* Rapporteurs
  Éric Gaussier, Université Joseph Fourier de Grenoble
  Jacques Savoy, Université de Neuchâtel
* Examinateurs
  Chantal Reynaud, Université Paris-Sud
  Mohand Boughanem, Université Paul Sabatier de Toulouse
* Invité
  Claude de Loupy, Syllabs
* Directeurs
  Pierre Zweigenbaum, CNRS
  Xavier Tannier, Université Paris-Sud

Résumé de la thèse :

Les moteurs de recherche verticaux, qui se concentrent sur des segments
spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans
le paysage d'Internet. Les moteurs de recherche thématiques, notamment,
peuvent obtenir de très bonnes performances en limitant le corpus indexé
à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus
contrôlables que le domaine est bien ciblé. De plus, la connaissance des
objets et de leurs propriétés rend possible le développement de
techniques d'analyse spécifiques afin d'extraire des informations
pertinentes.

Dans le cadre de cette thèse, nous nous intéressons plus précisément à
la procédure de collecte de documents thématiques à partir du Web pour
alimenter un moteur de recherche thématique. La procédure de collecte
peut être réalisée en s'appuyant sur un moteur de recherche généraliste
existant (recherche orientée) ou en parcourant les hyperliens entre les
pages Web (exploration orientée).

Nous étudions tout d'abord la recherche orientée. Dans ce contexte,
l'approche classique consiste à combiner des mot-clés du domaine
d'intérêt, à les soumettre à un moteur de recherche et à télécharger les
meilleurs résultats retournés par ce dernier. Après avoir évalué
empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory,
nous proposons de l'améliorer en deux points. En amont du moteur de
recherche, nous proposons de formuler des requêtes thématiques plus
pertinentes pour le thème afin d'augmenter la précision de la collecte.
Nous définissons une métrique fondée sur un graphe de cooccurrences et
un algorithme de marche aléatoire, dans le but de prédire la pertinence
d'une requête thématique. En aval du moteur de recherche, nous proposons
de filtrer les documents téléchargés afin d'améliorer la qualité du
corpus produit. Pour ce faire, nous modélisons la procédure de collecte
sous la forme d'un graphe triparti et appliquons un algorithme de marche
aléatoire biaisé afin d'ordonner par pertinence les documents et termes
apparaissant dans ces derniers.

Dans la seconde partie de cette thèse, nous nous focalisons sur
l'exploration orientée du Web. Au coeur de tout robot d'exploration
orientée se trouve une stratégie de crawl qui lui permet de maximiser le
rapatriement de pages pertinentes pour un thème, tout en minimisant le
nombre de pages visitées qui ne sont pas en rapport avec le thème. En
pratique, cette stratégie définit l'ordre de visite des pages. Nous
proposons d'apprendre automatiquement une fonction d'ordonnancement
indépendante du thème à partir de données existantes annotées
automatiquement.


Clément de Groc
LIMSI-CNRS & Univ. Paris-Sud & Syllabs
http://perso.limsi.fr/cdegroc/

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list