Bourse: these a France Telecom : analyse semantique incrementale

alexis.nasr at LINGUIST.JUSSIEU.FR alexis.nasr at LINGUIST.JUSSIEU.FR
Tue Jun 24 07:18:39 UTC 2003


Proposition de thèse "Analyse sémantique incrémental d'une texte"

L'unité de Recherche et Développement "Langues Naturelles" de France
Télécom R&D à Lannion envisage de recruter un(e) candidat(e) pour une
thèse de doctorat en informatique ou en linguistique.

  - Sujet de thèse : analyse sémantique incrémentale d'un texte
  - Durée 3 ans.
  - Début prévu de la thèse : octobre 2003.
  - Lieu : France Télécom R&D à Lannion (Côtes d'Armor, France).

  - Contexte des travaux :

Dans le domaine du traitement automatique des langues (TAL), l'analyse
syntaxique/sémantique est nécessaire afin d'obtenir une représentation
du contenu du texte analysé. Dans l'état de l'art des réalisations
actuelles, "texte" veut souvent dire "phrase" : les références qui ne
sont pas à résoudre dans la même phrase sont perdues. Afin de
comprendre un texte multi-phrases/multi-paragraphes, une analyse
limitée à la phrase est insuffisante ; il faut réussir à mettre en
relation les informations extraites dans chaque phrase et résoudre les
anaphores.  Dans le cadre de la traduction automatique par exemple, la
représentation sémantique des textes est importante, car selon les
langues, les informations ne sont pas nécessairement "organisées" dans
les mêmes structures syntaxiques. Avec une traduction phrase par
phrase, il y a risque de perdre des informations qui n'existent que
dans la conjonction de deux phrases.

Cette thèse s'attaque donc au verrou technologique que constitue la
dimension discursive en traitement automatique des langues, c'est à
dire la prise en compte de la phrase dans son contexte, un pas
essentiel vers une meilleure compréhension des textes et une meilleure
qualité des services rendus par le TAL : Induction, résumé, classement
thématique, indexation, etc.

- Objectif de la thèse :

L'objectif théorique de la thèse sera de trouver une méthodologie (et,
si nécessaire d'adapter une approche théorique existante) pour
modéliser la sémantique "supra-phrastique". Cette approche s'appuiera
sur la sémantique lexicale mais devra être indépendante de toute
langue particulière pour pouvoir s'adapter à n'importe quel ensemble
de données linguistiques (lexique/grammaires). L'approche doit prendre
en compte l'information (sémantique) qui augmente au fur et à
mesure. L'analyse phrastique qui a été implémentée et qui sert de
point de départ est, entre autre, influencée par la Discource
Representation Theory

Les problèmes suivants pourront être abordés au cours de la thèse :

- Résolution des références intra-phrastiques et supra-phrastiques
(anaphores, cataphores, reprises, entités nommées)

- Détections des contradictions et leur suppression (si l'ambiguïté le
permet)

- Création d'une représentation complète et cohérente à partir d'un
texte en langue naturelle

L'objectif informatique sera une implémentation (sous forme d'un
module de C++ à intégrer dans le système d'ánalyse linguistique
robuste et multilingue qui a été dévéloppé dans l'équipe) de
l'approche théorique choisie permettant de créer des représentations
sémantiques textuelles.  Cette implémentation devra prendre en compte
l'aspect incrémental du texte : le module devra donc gérer la mise à
jour (complétion, correction, suppression) des informations textuelles
au fur et à mesure de l'analyse des phrases.

Le sujet de thèse envisagé s'inscrit dans le cadre de l'activité
"traduction automatique" et interpretation sémantique des textes.

Le candidat, informaticien ou linguiste, devra avoir des connaissances
en traitement automatique du langage naturel. Des connaissances, à la
fois en en linguistique (spécialement dans le domaine de la sémantique
dans un sens large) et en informatique (langage C++) sont requises
pour ce travail de thèse.

Merci d'envoyer un CV détaillé à :
    Johannes Heinecke
    France Télécom R&D, DMI/GRI/Langues Naturelles
    2 avenue Pierre Marzin, F-22307 Lannion cedex
    Tel.: +33 (0) 2 96 05 21 77
    Email: johannes(dot)heinecke(at)francetelecom(dot)com
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list