Job: Stage, Acquisition semi-automatique de patrons caracteristiques a partir de textes
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sat Jan 26 20:08:01 UTC 2013
Date: Fri, 25 Jan 2013 23:26:34 +0100
From: Thierry Poibeau <thierry.poibeau at ens.fr>
Message-Id: <B7927B76-3EA3-4404-922B-7ED97F7511D0 at ens.fr>
*** Proposition de stage : acquisition semi-automatique de patrons
caractéristiques à partir de textes ***
* Descriptif :
Le stage vise à extraire semi-automatiquement des patrons
syntaxico-sémantiques à partir de textes. Cette tâche a plusieurs
applications possibles : les patrons peuvent servir à repérer des
éléments précis dans un texte (tâche classique d'extraction
d'information) mais ils peuvent aussi servir de base à des travaux plus
linguistiques, visant par exemple à caractériser des textes en fonction
de particularités qui ne sont pas directement observables.
Les outils existants reposent essentiellement sur des patrons très
proches des formes de surface (Hearst 1992) ou sur des méthodes à base
d'apprentissage produisant de très nombreux patrons qui sont ensuite
difficiles à trier et à analyser (Quiniou et al., 2012). Ces études ont
toutefois mis en avant des approches efficaces et reposant sur un
certain nombre de points communs (préanalyse du texte par un analyseur
morphosyntaxique, repérage de séquences continues ou non, contraintes
sur le niveau d'analyse possible). Pour aller plus loin, il semble
nécessaire de proposer des approches interactives, de sorte que
l'analyste puisse spécifier dynamiquemlent ses besoins et ainsi guider
au mieux l'analyse.
* Déroulement du stage
Le stage se déroulera suivant plusieurs étapes :
- état de l'art et choix d'une approche adéquate
- implémentation d'un algorithme interactif (en réutilisant si possible
un logiciel existant pour l'acquisition des patrons eux-mêmes)
- validation sur une tâche à préciser (la tâche visée et le corpus
seront discutés au début du stage)
- rédaction d'un rapport de stage
* Références
- Marti Hearst (1992). "Automatic Acquisition of Hyponyms from Large
Text Corpora." In: Proceedings of the 14th International Conference on
Computational Linguistics (COLING-1992). doi:10.3115/992133.992154.
- Solen Quiniou, Peggy Cellier, Thierry Charnois, Dominique Legallois
(2012). What About Sequential Data Mining Techniques to Identify
Linguistic Patterns for Stylistics? Proceedings of
Cicling. http://hal.archives-ouvertes.fr/hal-00675578.
* Compétences requises
- bonne connaissance d'un langage de programmation (java, perl ou python
seraient particulièrement appréciés)
- intérêt pour le traitement automatique du langage naturel
- intérêt pour l'intelligence artificielle, en particulier
l'apprentissage automatique
- qualité de rédaction en français et en anglais
* Conditions :
Le stage se déroulera au laboratoire Lattice (à Montrouge,
http://www.lattice.cnrs.fr/) pendant 6 mois, à partir d'avril 2013. Ce
stage est indemnisé grâce au soutien du laboratoire d'excellence
"Empirical Foundations of Linguistics" (labex EFL,
http://www.labex-efl.org/). Le stage fait partie d'un projet plus large
visant à étudier la contribution de sources de connaissances pour
l'extraction d'information, mené en commun entre le LATTICE et le LIPN
dans le cadre du labex EFL.
* Comment postuler ?
Envoyer par mail un CV et une lettre de motivation à Thierry Poibeau
(prenom.nom at ens.fr) avant le 7 février 2013. Indiquer "stage :
acquisition semi-automatique de patrons caractéristiques à partir de
textes" comme sujet du mail.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list