Job: Stage de Master 2e annee, Extraction d'information a partir de documents en archeologie

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sat Feb 9 20:19:24 UTC 2013


Date: Fri, 8 Feb 2013 15:46:28 +0100
From: Thierry Poibeau <thierry.poibeau at ens.fr>
Message-Id: <229F0488-D1BD-4D4A-8F20-FFFA42125858 at ens.fr>

*** Proposition de stage de Master 2e année : extraction d'information à
    partir de documents en archéologie ***

Descriptif :

Le stage s'inscrit dans le domaine des humanités numériques, dans le
cadre d'une collaboration entre le laboratoire LATTICE (UMR8094, analyse
linguistique et traitement automatique des langues,
http://www.lattice.cnrs.fr/) et le laboratoire AOROC (UMR 8546,
archéologie, http://www.archeo.ens.fr/). Les deux laboratoires font
partie du PRES Paris-Sciences Lettres qui finance ce stage.

Le stage vise à analyser automatiquement ou semi-automatiquement le
contenu textuel de documents traitant d'archéologie (rapports de
fouille, mémoires, thèses,...) afin d'en extraire des informations
pertinentes pour constituer des index "intelligents". Ces index
serviront eux-mêmes à enrichir des applications de recherche
d'information spécialisées, afin notamment de fournir un accès à partir
de cartes géographiques (pour répondre par exemple à des requêtes telles
que : "sur quels sites de la région tourangelle a-t-on trouvé des tuiles
à rebord ?"). Le stage porte uniquement sur l'analyse textuelle des
documents (et n'inclut donc pas les aspects liés au système
d'information géographique).

On s'intéressera particulièrement aux outils d'extraction d'information
(extracteur de terminologie, analyseur d'entités nommées) et de
structuration des connaissances (mise en place de liens entre termes,
etc.). Les aspects pratiques seront privilégiés (mise en oeuvre des
outils dans des environnements réels, évaluation de la facilité
d'utilisation pour des non spécialistes, etc). Une collaboration étroite
avec les interlocuteurs côté archéologie est indispensable.

Un jeu de données sera fourni à l'étudiant par le laboratoire AOROC. On
s'assurera au début du stage des objectifs et de la faisabilité des
traitements en fonction du format du document fourni.

Le stage se déroulera ensuite en plusieurs temps :

 - état de l'art du domaine : 
 - relevé des outils existants, statut, utilisabilité dans le contexte
   visé
 - mise en oeuvre d'une maquette (réalisation d'un index structuré) à
   partir de documents fournis par le laboratoire d'archéologie
 - évaluation, dialogue avec les utilisateurs potentiels
 - rédaction du rapport de stage

* Compétences requises

- connaissance d'outils d'extraction d'information (terminologie,
  entités nommées)
- plus généralement, intérêt pour le traitement automatique du langage
  naturel
- connaissance d'un langage de programmation (perl, python)
- intérêt pour la mise en place de solutions applicatives, prise en
  compte des besoins utilisateurs
- qualité de rédaction en français et en anglais
- un intérêt pour l'archéologie serait un plus


* Conditions :

Le stage se déroulera au laboratoire Lattice (à Montrouge,
http://www.lattice.cnrs.fr/) pendant 6 mois, à partir d'avril 2013 en
étroite collaboration avec le laboratoire AOROC (à l'ENS, 45 rue d'Ulm à
Paris). Ce stage est indemnisé suivant les règles en vigueur grâce au
soutien du PRES Paris-Sciences Lettres.

* Comment postuler ? 

Envoyer un CV et une lettre de motivation à Thierry Poibeau et
Frédérique Mélanie (prenom.nom at ens.fr) avant le 15 février 2013. 

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list