Job: Stage M2 informatique/TALN, Temis, Paris
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Mar 12 17:28:30 UTC 2010
Date: Fri, 12 Mar 2010 16:29:35 +0100
From: Isabelle Tellier <isabelle.tellier at univ-orleans.fr>
Message-ID: <4B9A5DDF.6040004 at univ-orleans.fr>
*Sujet de stage informatique, niveau M2 : * CRF pour l'extraction
d'entités/relations dans des textes
*Lieu :* société Temis, Paris
La société Temis édite une solution logicielle pour traiter les
documents textuels. Elle est capable de les classer suivant leur
langue ou leur domaine, d'en extraire les « entités » importantes et
de caractériser les relations prédicatives qu'entretiennent ces
entités entre elles.
Le module d'extraction est réalisé à l'aide de règles écrites à la
main. Ces règles sont spécifiques de la langue des documents et du
domaine sur lequel ils portent, elles peuvent donc être longues et
fastidieuses à écrire. Or, des techniques d'apprentissage automatique
existent depuis quelques années pour apprendre à extraire de
l'information à partir d'exemples (ce sujet a par exemple donné lieu à
la « shared task » de CoNLL 2003, 17 compétiteurs y ont
participé). Plusieurs approches différentes possibles peuvent être
mises en oeuvre pour cela : celles qui donnent actuellement les
meilleurs résultats sont fondées sur les CRF (Conditional Random
Fields), un modèle statistique permettant d'annoter des items lexicaux
avec des labels qui désignent les zones à extraire.
L'objectif de ce stage est de tester cette méthode sur un corpus de
documents. Différentes étapes seront donc nécessaires :
* Il faudra dans un premier temps constituer un corpus d'exemples
et l'annoter pour servir de base à l'apprentissage automatique.
L'outil final de Temis peut servir à réaliser cette base, mais
comme il ne produit pas une extraction parfaite, des stratégies
d'amélioration de l'annotation initiale devront être envisagées.
* Il s'agira ensuite de fixer les paramètres de
l'apprentissage. Les CRF requièrent notamment la définition d'un
ensemble de « fonctions features » qui caractérisent des
configurations locales d'annotations. La définitions de ces
features est laissée à l'initiative du programmeurs, mais des
méthodes classiques existent pour les générer à partir des
données annotées. Or Temis dispose aussi de ressources
linguistiques sous la forme de dictionnaires ou de règles
écrites à la main. Le coeur du stage sera d'étudier dans quelle
mesure ces ressources peuvent être traduites sous la forme de
features, de façon aussi automatique que possible.
* Il faudra ensuite procéder à diverses expériences pour évaluer
la qualité de l'extraction obtenue par apprentissage
automatique, et la comparer avec celle obtenue par les règles
écrites à la main. Cette qualité peut dépendre grandement de la
langue et du domaine du document, ainsi que de l'ensemble des
features utilisées pour l'apprentissage.
Ce qui est attendu à l'issue de ce stage est la définition d'une
chaîne de traitements mèlant production manuelle de ressources et
apprentissage automatique, qui optimise la qualité de l'extraction
finale.
*Ref bibliographiques :*
Daelemans W., and Osborne M. (Eds) : Proceedings of CoNLL 2003.
Jousse F., Tellier I., Tommasi M., Marty P. : « Learning to Extract
Answers in Question Answering: Experimental Studies », Coria 2005,
p85-99.
Lafferty J., McCallum A., Pereira F. : « Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data »,
actes de ICML, pages 282--289, 2001.
Poibeau, T : Extraction Automatique d'Information, Hermes, Paris,
2003.
Sutton , McCallum A : « An Introduction to Conditional Random Fields »
dans « Introduction to Statistical Learning », MIT Press, 2006.
*Compétences requises : *niveau M2 informatique, avec des
connaissances ou au moins un intérêt pour le TALN, l'extraction
d'information et l'apprentissage automatique
Le stage peut commencer dès avril pour au moins 4 mois, il est
rémunéré au tarif 1/3 Smic.
*Encadrement : *Hervé Azoulay, de la société Témis et Isabelle
Tellier, professeur à l'université d'Orléans
Envoyer CV + lettre de motivation à *herve.azoulay at temis.com* et
*isabelle.tellier at univ-orleans.fr*.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list