Job: Stage M2 TAL, Construction et desambiguisation de terminologies, ATILF/LORIA

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sun Jan 30 19:00:58 UTC 2011


Date: Fri, 28 Jan 2011 12:31:16 +0100
From: ejacquey <Evelyne.Jacquey at atilf.fr>
Message-ID: <4D42A904.7080105 at atilf.fr>


English version below

Offre de stage M2 "Construction et désambiguïsation de terminologies
par des méthodes de fouille de données"

Cadre général :

- projet MSH ASTTIC (Annotation sémantique et terminologique de textes
  pour leur indexation et leur catégorisation)

- projet transdisciplinaire réunissant l'ATILF (Analyse et traitement
  informatisé de la langue française) et le LORIA (Laboratoire lorrain
  de recherche en informatique et ses applications)

Domaine : Fouille de données appliquée à la détection de termes en
texte intégral

Sujet :

La terminologie d'un domaine est une liste structurée de termes, un
terme pouvant être une unité lexicale simple ou complexe,
i.e. composée de plusieurs mots. Il est fréquent que, dans un même
domaine, nous ayons des terminologies différentes issues de
communautés aussi légèrement différentes. La question qui se pose est
donc de rapprocher les termes similaires en fonction, par exemple de
leurs usages dans les textes [1, 3, 4].

L'idée de ce projet est donc d'utiliser des méthodes de fouille de
données, notamment des méthodes de classification issue de l'Analyse
Formelle de Concepts [2], pour confronter les différents usages des
termes et les regrouper lorsqu'ils partagent des usages similaires.
Inversement, des usages différents du même terme devraient pemettre de
distinguer des sens différents d'un même terme [5]. Ainsi, il est
possible de confronter les usages d'un terme dans un domaine de
spécialité ou dans la langue générale. Si on prend l'exemple du terme
"composition", il correspond à des concepts différents dans deux
sous-domaines des sciences du langage (syntaxe = grammaire et
morphologie = construction des mots), dans un autre domaine de
spécialité qu'est la musicologie, probablement dans d'autres domaines
encore, mais c'est aussi un nom du français courant.

Le stage comporte trois objectifs :
– Identifier et extraire des ressources textuelles les élements
  d'information qui permettront de caractériser les termes et leurs
  usages
– Proposer un modèle de données et définir la méthode de fouille de
  données la plus appropriée à la comparaison des usages
– Réaliser un prototype informatique implémentant cette méthode.

Encadrement : Evelyne Jacquey (ATILF) et Yannick Toussaint (LORIA)
Lieu : ATILF, Nancy
Rémunération : indemnités de stage (1/3 du SMIC net)
Durée : 5 mois  (février - juin ou mars - juillet)
Contact : Evelyne.Jacquey[AT]atilf.fr

Bibliographie :
[1] N. Aussenac-Gilles and D. Bourigault. The th[ic]2 initiative :
Corpus-based thesaurus construction for indexing www documents. In
Proceedings of the EKAW'2000 workshop Ontologies and texts, pages
71–78, Juan-Les-Pins, Universit ́ Paul Sabatier, Toulouse, Octobre
2000.

[2] Ganter B. and Wille R. Formal Concept Analysis, Mathematical
Foundations. Springer, 1999.

[3] D. Bourigault, N. Aussenac-Gilles, and J. Charlet. Construction de
ressources terminologiques ou ontologiques à partir de textes : un
cadre unificateur pour trois études de cas. Revue d'Intelligence
Artificielle (RIA), 18(1), 2004. Hermès.

[4] E. Jacquey, L. Kister, M. Grzesitchak, B. Gaiffe, C. Reutenauer,
M.  Valette, and O. Sandrine. Thesaurus et corpus de spécialité en
sciences du langage : une approche lexicométrique appliquée à
l'analyse de termes en corpus. In Actes de la conférence TALN2010,
Université de Montréal, Juillet 2010.

[5] G. Stumme and A. Maedche. Fca-merge : Bottom-up merging of
ontologies. In 17th International Joint Conferences on Artificial
Intelligence (IJCAI'01), pages 225–234, San Francisco, CA,
2001. Morgan Kaufmann Publishers, Inc.


==============English Version===============

Research position in Master's Degree "Building and disambiguating
terminologies using data mining methods"

Contexte : The subject is jointly proposed by the Lexique team at
ATILF and the Orpailleur Team at LORIA. They are both involved in a
MSH project on semantic annotation and terminology.

Domain : Data mining for terminologies disambiguation in texts

A terminology in a domain is a structured list of terms, a term being
a simple lexical unit or a complex one, i.e. composed of several
words. In most domains, there already exist several terminologies,
initially issued from different communities with different points of
view on the domain and on the tasks. The problem we have to deal with
is to align these terminologies, and to group all together terms which
are similar following, for example, usages in the texts [1, 3, 4].

In this project, we will use data mining tools – classifications
methods such as Formal Concept Analysis [2]– to compare usages of
terms and to group them in the same class when they share similar
context [5]. On the opposite, if there exit different contexts, we
should be able to distinguih two separate classes. Thus, we should be
able to compare ocurences of a term in a general language and in a
domain of specialty.  For example, ”composition” has a different
meaning in two sub-domains of linguistics (in syntax = grammar while
in morphology = building words), as well as a different meaning in
musicology or in general langage...

The project has three phases :
– Identify and extract from textual resources pieces of information
  that will be used for describing terms and their usages
– Propose a data model and define the data mining method(s) in order
  to compare these usages
– Implement a prototype of this(ese) method(s).

Supervisors : Evelyne Jacquey et Yannick Toussaint
Location : ATILF
Wage rate : work placement gratuity
Duration : 5 months (2011, February - June)
Contact : Evelyne.Jacquey[AT]atilf.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list