Sujet de these: Allocation ministere - Consolidation de grands reseaux lexicaux - TRES URGENT

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Sep 21 19:41:24 UTC 2012


Date: Thu, 20 Sep 2012 22:09:35 +0200
From: Mathieu Lafourcade <mathieu.lafourcade at lirmm.fr>
Message-ID: <CAP9SbPU6z5oaYYkjk9wRxkpGKz_hhizq1iCrVXKMJeCnDsG39Q at mail.gmail.com>

*Proposition de thèse financé (allocation ministère)*

Nous recherchons un candidat pour le sujet de thèse en informatique
suivant. Le sujet a un financement type allocation
ministérielle. Contacter Mathieu Lafourcade (lafourcade at lirmm.fr) en
envoyant CV et relevé de notes de M2. M2 informatique fortement préféré
mais M2 TAL/IDL possibles.  Prévoir au minimum un RDV téléphonique.

*Laboratoire* : Université Montpellier 2, LIRMM (Laboratoire
d'Informatique, de Robotique, et de Microélectronique de Montpellier),
équipe TEXTE
*Directeur *: Mathieu Lafourcade
*Sujet de thèse* : Consolidation de grands réseaux lexicaux
*Contexte général* : Constitution de bases de connaissances et
d'information l'linguistique pour la gestion de terminologie et
l'analyse sémantique de textes
*Mots-clés* : Réseaux lexico-sémantique, inférence, règles d'induction,
détection d'incohérence, rôle sémantiques, relations ontologiques,
acquisition lexicale, clique, cluster

*Contexte*
Le projet JeuxDeMots a permis en 4 ans de construire de façon collective
un grand réseau lexical pour le français (avec des déclinaisons dans
d'autres langues). Ce type de réseau constitue une base de connaissance,
à la fois lexicale et ontologique particulièrement utile dans le cadre
de l'analyse sémantique de textes. Le réseau contient plus de 240000
nœuds (termes) et de 1,4 million de liens typés (association libre,
hyperonyme, hyponyme, partie, tout, typicalité pour les verbes, etc.),
orientés, et pondérés. Il contient également des relations d'inhibition
(par exemple voler -agent-> oiseau mais *voler
-agent->autruche). L'impact de ce genre de ressource est majeur dans le
domaine du TAL et de la recherche d'information, dans la mesure ou il
constitue une base de connaissance sur lesquels peuvent se fonder avec
profit de nombreux traitements.

*Enjeux et objectifs*

Ce sujet de thèse essaye d'apporter des réponses aux questions autour de
la consolidation de tels réseaux lexicaux. D'une façon générale, on
cherchera à déterminer aussi bien de façon théorique que pratique quels
éléments de connaissance on peut inférer à partir du contenant du réseau
avec et sans textes comme guides. En particulier, on s'intéressera à :

* la découverte de cliques ou de quasi cliques, correspondant à des
  usages de termes en contexte, avec en particulier leur caractérisation
  en sens propres ou figurés.

* la détection de relations potentielle par triangulation (transitivité
  du type A --> B et B --> C avons nous A --> C ?) et par
  quadrangulation (analogie du type A --> B, D --> C et B --> C avons
  nous A--> D ?) . La quadrangulation pourra être vue comme la
  composition de deux triangulations.

* l'identification de n-uplet de termes à activation spécifique (par
  exemple : vent + toiture => assurance) .

* la construction automatique de règles d'inférence à partir des schémas
  de triangulation identifiés. Ces règles devront être représentées en
  tant qu'objets au sein du réseau lexical afin d'être exploitées par
  les processus d'analyse sémantique de textes.

On souhaite explorer et consolider le réseau à l'aide d'algorithmes de
graphe selon deux modalités :

* endogène : on se limite au graphe exclusivement
* exogène : à partir de textes où la cooccurrence de termes est utilisée
  comme point de départ à l'exploration du graphe.

Dans tous les cas, on cherchera a définir des opérations se basant sur
le type des relations et leur valeur d'activation/inhibition. On
cherchera aussi à modéliser dans quelle mesure, la validation des
relations induites peut être faite automatiquement, ou être proposée à
des utilisateurs.

*Déroulement*

La thèse sera dirigée par Mathieu Lafourcade, Maître de conférences HDR
à l'Université Montpellier 2. Mathieu Lafourcade travaille dans le
domaine de l'analyse sémantique de texte au sein de l'équipe Texte du
LIRMM..  La première année devra donner lieu à un état de l’art étendu
sur les domaines suivants, en lien direct avec le sujet de thèse :
extraction de relations typés à partir de corpus, inférence de règles,
modélisation et représentation de règles d'induction notamment à partir
d'automates.  La seconde année sera consacrée à l’expérimentation de
méthodes innovantes de consolidation entre autres à partir de corpus
métier, journalistique et encyclopédique.
La troisième année sera consacrée à l'affinage des sens et usages dans
les terminologies de domaines spécialisés et des relation entretenus
avec le vocabulaire général, ainsi qu’à la rédaction du manuscrit de
thèse et d’articles scientifiques.

*Références*
Aitchison J. (2003). Words in the Mind: an Introduction to the Mental
Lexicon. OXFORD, BLACKWELL.

Norvig P. (1989) Building a Large Lexicon with Lexical Network
Theory. In the Proceedings of the IJCAI Workshop on Lexical Acquisition.

Zhendong Dong & Qiang Dong (2006) Hownet and the Computation of Meaning.
World Scientific.

Gala N., Lafourcade M. (2011) NLP lexicons: innovative constructions and
usages for machines and humans. In proc of Electronic lexicography in
the 21st century: new applications for new users (eLEX2011), Bled,
Slovenia, 10th-12th November 2011, 12 p

Lafourcade M., Joubert A., Schwab D., Zock M. (2011) Évaluation et
consolidation d'un réseau lexical grâce à un assistant ludique pour le "
mot sur le bout de la langue " In proc of TALN'11, Montpellier, France,
27 juin-1er juillet 2011, pp. 295-306.

Lafourcade M., Joubert A. (2010) Computing trees of named word usages
from a crowdsourced lexical network. In proc Computational Linguistics
Applications - International Multi-Conference on Computer Science and
Information Technology, Wisla, Pologne, 18-20 October 2010.

Lafourcade M., Joubert A. (2009) Similitude entre les sens d’usage d’un
terme dans un réseau lexical. Dans Traitement Automatique des Langues
(TAL), Volume 50 Numéro 1. Varia, pp. 179-200, 2009.

Lafourcade M. (2011) Lexique et analyse sémantique de textes -
structures, acquisitions, calculs, et jeux de mots. Mémoire
d'Habilitation à Diriger les Recherches, Université Montpellier 2,
LIRMM, soutenu le 7 décembre 2011, 300 p.

MILLER G.A., Becwith R., Fellbaum C., Gross D. AND Miller K.J. (1990).
Introduction to WordNet: an online lexical database., International
Journal of Lexicography, 3 (4), pp. 235-244.

Ji H., Ploux S. AND Wehrli E. (2003) Lexical knowledge representation
with contexonyms. In Proceedings of the 9th MT summit, pp. 194-201.

Ploux S., Victorri B. (1998). Construction d’espaces sémantiques à
l’aide de dictionnaires de synonymes. Traitement Automatique des
Langues, vol.39/1, 161-182.

Polguère A. (2006). Structural properties of Lexical Systems :
Monolingual and Multilingual Perspectives. Proceedings of the Workshop
on Multilingual Language Resources and Interoperability (Coling/ACL),
Sydney, pp. 50-59.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list