These: Gael Lejeune, Veille Epidemiologique Multilingue

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Oct 4 20:50:57 UTC 2013


Date: Fri, 04 Oct 2013 13:49:31 +0200
From: Gael Lejeune <gael.lejeune at unicaen.fr>
Message-ID: <524EAB4B.4010102 at unicaen.fr>
X-url: http://lejeuneg.users.greyc.fr/


Bonjour,


J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
"Veille épidémiologique multilingue : une approche parcimonieuse au
grain caractère fondée sur le genre textuel ".

Cette soutenance aura lieu le mercredi 16 octobre 2013 à 13 heures

Lieu:
Salle des thèses ( 1er étage du bâtiment Sciences 3)
Campus 2 de l'Université de Caen (teminus du Tram A)
Boulevard du maréchal Juin 14000 Caen

Vous êtes également cordialement invités au pot qui suivra.


Composition du Jury:

Luigi Lancieri, Professeur, Université Lille II (rapporteur)
Jose Gabriel Pereira Lopes, Professeur, Université Nouvelle de Lisbonne
(rapporteur)
Florence Sedes, Professeur, Université Toulouse III (rapporteur)
Gaël Dias, Professeur, Université de Caen (examinateur)
Natalia Grabar, Chargée de Recherches, STL–CNRS (examinateur)
Ludovic Tanguy, Maître de Conférences HDR, Université Toulouse II 
(examinateur)
Nadine Lucas, Chargée de Recherche HDR, GREYC–CNRS (directrice)
Antoine Doucet, Maître de Conférences HDR, Université de Caen 
(co-encadrant)

Résumé:

Cette thèse explore la problématique du multilinguisme en recherche
d'information.
Nous exposons les fondements d'une méthode de veille sur la presse
adaptée au traitement du plus grand nombre de langues possible.  Le
domaine spécifique auquel nous nous intéressons est la veille
épidémiologique, domaine pour lequel une large couverture est
nécessaire.

Nous employons une méthode différentielle, non-compositionnelle et
endogène. Notre but est de maximiser la factorisation des procédures
afin de permettre le traitement de nouvelles langues avec un coût
marginal minimal. Pour ce faire nous exploitons les propriétés du genre
journalistique et tout particulièrement la répétition de certains
éléments textuels à des positions clés.
Notre grain d'analyse est le grain caractère. Ceci permet de nous
affranchir du mot graphique, grain inadapté pour l'analyse de nombreuses
langues.

Nous aboutissons à l'implantation du système DAnIEL (Data Analysis for
Information Extraction in any Language). DAnIEL opère une classification
des documents selon qu'ils décrivent ou non des faits épidémiologiques
et les regroupe par faits épidémiologiques sous la forme de paires
maladie-lieu. DAnIEL est rapide et efficace en comparaison des systèmes
existants. Il nécessite des ressources légères pour fonctionner,
facilitant ainsi le traitement de nouvelles langues.

Nous présentons également d'autres domaines d'applications de DAnIEL :
classification et extraction de mots-clés dans des articles
scientifiques.  Enfin, nous exploitons DAnIEL pour effectuer une
évaluation par la tâche de différents systèmes de nettoyage de page web
(ou détoureurs).


Cordialement,

Gaël Lejeune

----------------------------------------
Assistant professor (ATER) at IUT Saint-Lô
PhD Student, HUman Language TECHnologies group (HULTECH)
Normandy University, UNICAEN GREYC CNRS UMR 6072
Campus 2, room S3-365,Boulevard du Maréchal Juin
CS 14032, 14032 Caen Cedex 5
Tél: 02 31 56 73 98
http://lejeuneg.users.greyc.fr/
----------------------------------------

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list