Job: Stage, Extraction des informations encyclopediques pour la recherche d'information

Fri Feb 10 21:16:46 UTC 2012

Date: Wed, 8 Feb 2012 17:10:36 +0100
From: Damien Nouvel <damien.nouvel at univ-tours.fr>
Message-ID: <CAHKNiVWT62r1nVfP8HBkX45mWXYFSWXAEsb8efbgEZH8E9azpg at mail.gmail.com>
X-url: http://dumps.wikimedia.org/backup-index.html

Extraction des informations encyclopédiques pour la recherche
d'information

PROBLEMATIQUE

Le Laboratoire LI (Laboratoire d'Informatique de l'Université de Tours)
propose un sujet de stage dans le cadre de l'enrichissement de nos
ressources pour nos systèmes de reconnaissance d'entités nommées.

La reconnaissance d'entités nommées consiste à repérer automatiquement
dans des textes des unités linguistiques (noms de personnes / sociétés /
organisations, lieux, montants, dates, etc.) qui peuvent être utiles à
la recherche d'informations, à l'extraction d'informations pour
l'utilisateur ou pour des traitements ultérieurs. Nos systèmes reposent
sur l'utilisation des technologies suivantes :

- règles symboliques de reconnaissance (transducteurs),
- fouille de données et apprentissage automatique,
- hybridation des deux précédents.

Les résultats obtenus par ces systèmes, dépendent à la fois des
algorithmes qu'ils mettent en œuvre et des ressources qu'ils
utilisent. Il est donc essentiel d'être en mesure d'enrichir et de
mettre à jour nos ressources de manière aussi automatisée que possible.

Nous nous appuyons notamment sur des lexiques qui listent des noms
propres (personnes, lieux, organisations, etc.). L'apparition
d'encyclopédies structurées à large couverture (par ex. Wikipedia) et
leur mise à disposition permet d'extraire automatiquement ces données
afin de mettre à jour nos lexiques.

Le stage que nous proposons porte sur l'automatisation de tels
traitements : navigation dans les structures des encyclopédies,
sélection et extraction des catégories et entités pertinentes,
intégration dans des lexiques, évaluation de l'impact sur les
performances de nos systèmes. Les encyclopédies mettent souvent en place
des facilités pour les récupérer et les interroger (par exemple les
dumps Wikipedia : http://dumps.wikimedia.org/backup-index.html ). Il
faut cependant veiller à la pertinence des informations extraites.

MISSION

La personne recrutée sera chargée de la conception et des développements
logiciels, en deux phases :

- phase 1 (étude de faisabilité et spécifications) : sélectionner les
encyclopédies et les outils appropriés pour leur interrogation, il
s'agit de voir comment il sera possible d'automatiser l'extraction
d'entités selon les encyclopédies,

- phase 2 (conception, prototypage et implémentation) : conception et
implémentation d'un prototype modulaire et paramétrable d'extraction,
tests, évaluation et étude de l'impact sur les performances de nos
systèmes, validation.

PROFIL RECHERCHE

Formation informatique, de bon niveau académique, compétences en
programmation (Java, Python, C++), manipulation de base de données et
XML.  A l'aise sur toutes plateformes (Windows / Linux).

CONDITIONS

Dates et durée : dès que possible, pour 3 mois
Lieu d'exercice : Blois, antenne universitaire, laboratoire LI, équipe BDTLN
Rémunération : 436,05 € par mois (prévue par la règlementation),
Possibilité d'extension en CDD d'un / deux mois, selon le travail
réalisé et les perspectives

DEPOT DE CANDIDATURES

Contact : nathalie.friburger at univ-tours.fr , Jean-Yves.Antoine at univ-tours.fr,
damien.nouvel at univ-tours.fr
Procédure : Merci d'envoyer un CV mentionnant votre formation, vos
compétences, vos activités passées

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------