Stage: Stage de master recherche en TAL et Lexicographie, LIDILEM

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Nov 8 21:45:44 UTC 2013


Date: Thu, 7 Nov 2013 08:34:30 +0100
From: Agnès Tutin <agnes.tutin at u-grenoble3.fr>
Message-ID: <000901cedb8b$cc2f1da0$648d58e0$@u-grenoble3.fr>
X-url: http://www.atilf.fr/ressources/termith/


Stage de recherche M1 ou M2 Traitement automatique des langues,
Lexicographie ou Linguistique appliquée

Conception et développement d’un dictionnaire électronique de
collocations du langage scientifique

Lieu : LIDILEM, Université Grenoble 3 – Stendhal, Durée : de 3 à 5 mois,
Période : janvier à juin 2014.

Stage rémunéré : indemnité (436 euros/mois)

Personnes à contacter : Agnès Tutin (agnes.tutin at u-grenoble3.fr)

Dans le cadre du projet Termith (Projet ANR-Content :
http://www.atilf.fr/ressources/termith/) impliquant plusieurs
laboratoires de recherche (ATILF, LINA, INRIA, LORIA, LIDILEM), nous
souhaitons élaborer un lexique d’expressions spécifiques du français
scientifique, par exemple faire une hypothèse, en premier lieu,
contrairement à nos attentes … Cette phraséologie transdisciplinaire des
écrits scientifiques traverse en large partie les disciplines et est
surreprésentée dans ce genre (Pecman 2007 ; Tutin 2007 ; Granger &
Paquot 2010). Dans le cadre du projet Termith, ces expressions seront
utilisées dans un système d’indexation automatique des écrits
scientifiques afin de mieux repérer les concepts spécifiques des textes.

Dans cette phraséologie, les collocations, ici définies comme des
associations binaires privilégiées et compositionnelles sur le plan
sémantique, constituent les expressions les plus productives. Il s’agit
d’expressions comme faire une hypothèse, résultats encourageants,
hypothèse de travail, etc.

Le sujet du stage consistera à adapter un format d’encodage pour ces
expressions à partir des extractions effectuées automatiquement d’un
grand corpus d’écrits scientifiques. L’extraction sera réalisée
semi-automatiquement dans notre équipe à partir d’un corpus analysé
syntaxiquement en dépendances en utilisant des mesures d’association
(Kraif & Diwersy 2012 ; Cf aussi Seretan 2010). Le stagiaire sera chargé
de réfléchir au codage linguistique des propriétés pertinentes à
associer à ces collocations (alternances syntaxiques, détermination,
information d’usage) à partir des observations en corpus, de
sélectionner les collocations adaptées et de proposer une adaptation
pour ces expressions du standard Lexical Markup Framework (Francopoulo
et al. 2006).

Francopoulo, G., George, M., Calzolari, N., Monachini, M., Bel, N., Pet,
M., & Soria, C. (2006). Lexical markup framework (LMF). In International
Conference on Language Resources and Evaluation-LREC 2006.

Granger, S., Paquot, M., (2010. The Louvain EAP Dictionary (LEAD) »,
Proceedings of the XIV EURALEX International Congress , Leeuwarden (The
Netherlands), 6-10 July 2010, 321-326.

Kraif. O & Diwersy S. (2012). Le Lexicoscope : un outil pour l'étude de
profils combinatoires et l'extraction de constructions
lexico-syntaxiques.  Actes de la conférence conjointe JEP-TALN-RECITAL
2012, volume 2: TALN.  Grenoble, France. 399—406.

Pecman, M. (2007) : Approche onomasiologique de la langue scientifique
générale. Revue française de linguistique appliquée. « Lexique des
écrits scientifiques », vol. XII-2. 79-96.

Seretan V. (2010). Syntax-based collocation extraction.  Springer.

Tutin, A. (2004). Pour une modélisation dynamique des collocations dans
les textes. In Proceedings of the Eleventh EURALEX International
Congress, Lorient, France. 207-219.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list