Sujet de these: Extraction automatique d'itineraires dans des recits de voyages

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Sep 11 18:33:49 UTC 2009


Date: Thu, 10 Sep 2009 11:05:56 +0200
From: Renaud Marlet <renaud.marlet at labri.fr>
Message-Id: <C83FC4E3-076A-4147-AB1F-95EEEA2E7188 at labri.fr>
X-url: http://www.labri.fr/~marlet


*** Proposition de thèse :
*** Extraction automatique d'itinéraires dans des récits de voyages

La médiathèque intercommunale à dimension régionale de Pau a numérisé
un large corpus de textes à fort ancrage territorial.  Un certain
nombre sont des récits de voyage, dans les Pyrénées et en Aquitaine.
Ces textes, qui datent d'une période entre le milieu du XIXe siècle et
le début du XXe, ont un fort intérêt patrimonial.  Ils sont également
utilisés par les enseignants dans leurs activités éducatives.  L'accès
à cette masse de documents pose de nouveaux défis : une indexation « à
la Google » se limite à la recherche d'occurrences de mots alors qu'on
aimerait pouvoir interroger le fonds documentaire indépendamment des
mots utilisés et des modes de narration afin de connaître les récits
passant par un certain lieu ou suivant un certain chemin, à certaines
dates ou époques, et ce via une interface graphique qui permette des
allers et retours simples et directs entre texte et carte
géographique.  C'est l'objectif d'un projet co-financé par l'INRIA et
la région Aquitaine : automatiser l'extraction des itinéraires décrits
dans ces récits de voyages.

Une bourse de thèse est disponible dans le cadre de ce projet.  Le
doctorant aura comme objectif de fournir des techniques d'analyse
automatique du "discours" (c'est-à-dire de détermination des relations
entres les différentes phrases d'un texte, élément capital pour
construire le sens global du texte), et de les appliquer au corpus de
la médiathèque de Pau.  Il participera pour cela à l'ensemble des
activités du projet concernant l'analyse du discours et les
constructions sémantiques, notamment les représentations temporelles
et spatiales.  Ainsi, il aura notamment parmi ses tâches : l'étude sur
corpus de la structure discursive des récits de voyage, le choix et la
définition de relations de discours adaptées à ces récits,
l'identification d'indices syntaxiques et sémantiques permettant de
déterminer ces relations, leur mise en oeuvre pratique dans un
logiciel, et l'évaluation du système obtenu sur le corpus.

Le candidat à cette bourse de thèse devra posséder de bonnes
connaissances en linguistique computationnelle, dans un ou plusieurs
des domaines suivants : interface syntaxe-sémantique, sémantique,
analyse du discours, logique, inférence logique.  Il devra de plus
parler couramment le français -- langue des textes à analyser.

Le projet implique une équipe bordelaise, une équipe paloise et une
équipe toulousaine, ainsi que des personnalités extérieures.  Le
doctorant sera basé à Bordeaux et fera des missions régulières à Pau.
Des réunions de projet auront également lieu à Toulouse.  Le poste est
à pourvoir pour la rentrée 2009.

Contact: renaud.marlet at inria.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list