Habilitation: Thierry Poibeau, Des mots au texte. Analyse semantique pour l'acces a l'information

Tue Nov 4 15:09:04 UTC 2008

Date: Mon, 03 Nov 2008 22:31:36 +0100
From: Thierry.Poibeau at lipn.univ-paris13.fr
Message-ID: <20081103223136.0tyeqdh4wccgsg44 at intranet.lipn.univ-paris13.fr>
X-url: http://www.univ-paris13.fr/upn/accesv.htm#
X-url: http://www-lipn.univ-paris13.fr/~poibeau/

Bonjour,

J'ai le plaisir de vous inviter à la soutenance de mon Habilitation à
Diriger des Recherches intitulée "Des mots au texte. Analyse
sémantique pour l'accès à l'information" (résumé ci-dessous), ainsi
qu'au pot qui suivra.

La soutenance aura lieu le mercredi 26 novembre 2008 à partir de
10h15, dans la salle L322 de l'université Paris 13 (pour se rendre à
l'université Paris 13 : cf. http://www.univ-paris13.fr/upn/accesv.htm#
; la salle se trouve dans le bâtiment numéroté L2 sur le plan
accessible depuis le site de l'Université -- attention : la salle L322
est située au sein du laboratoire LPMTM et non au LIPN)

Cordialement,

Thierry Poibeau

------

Laboratoire d'Informatique de Paris-Nord
CNRS UMR 7030 et Université Paris 13
99, avenue Jean-Baptiste Clément
93430 Villetaneuse

http://www-lipn.univ-paris13.fr/~poibeau/

Tel. +33 (0)1 49 40 28 26
Fax. +33 (0)1 48 26 07 12

           ______________

Composition du jury :

Catherine Fuchs (CNRS-Lattice, rapporteur)
Benoît Habert (ENS-LSH, rapporteur)
Maria Teresa Pazienza (U. Rome tor Vergata, rapporteur)
Michel Denis (CNRS-LIMSI)
Daniel Kayser (U. Paris 13)
Adeline Nazarenko (U. Paris 13)
Pierre Zweigenbaum (CNRS-LIMSI)

           ______________

Des mots au texte
Analyse sémantique pour l'accès à l'information

Résumé

Pourquoi est-il si difficile de comprendre une langue de manière
automatique, même si on ne vise qu'une compréhension limitée,
factuelle et orientée vers des faits connus ? La langue, telle qu'elle
s'offre à nous, semble trop malléable pour être directement
appréhendable par ordinateur. C'est pourtant à ce problème que je me
suis intéressé : comment identifier du semblable dans des productions
langagières si variées, comment repérer des fragments de signification
au milieu d'un océan de textes ?

Mon mémoire d'Habilitation se compose de quatre chapitres. Je reviens
tout d'abord sur certains développements récents de la linguistique
informatique, pour montrer que la disponibilité de gros corpus a
entraîné une forte opérationnalisation du domaine. Cette évolution
n'est pas neutre théoriquement : je pense que l'apport des corpus et
des techniques d'acquisition dynamique de connaissances (notamment par
les techniques d'apprentissage) rend tout à fait plausible l'idée
d'une sémantique fondée sur l'usage.

Les trois chapitres suivants portent chacun sur un niveau d'analyse
différent (niveau lexical pour l'annotation sémantique, niveau
prédicatif pour l'extraction de relations, niveau textuel pour la
modélisation de documents spécialisés). Je défends l'idée d'un
continuum entre ces niveaux, du fait notamment que tous partagent des
similarités fondamentales, ce qui peut se manifester parfois de
manière très visible et influer sur les techniques utilisées.

Je reviens, dans la conclusion, sur les similitudes observées entre
ces différents paliers : la question de la relation entre mots et
concepts, les bords flous des catégories envisagées, leur grande
variabilité sur le plan linguistique. Je m'interroge sur le lien entre
traitement automatique des langues (TAL) et linguistique, avant de
proposer quelques perspectives permettant de poursuivre ce travail par
d'autres chemins.

------

>From Words to Text, Semantic Analysis for Information Access

Abstract

Why is it so difficult to automatically understand a language even
when what is targeted is only a limited kind of understanding, based
on known facts? A key reason is the great variability in language,
which is too challenging for a computer. This is the problem I try to
tackle: how to identify similar meanings among different expressions?
How to identify fragments of meaning in a sea of texts?

This thesis consists of four chapters. I first consider recent
developments in computational linguistics: I show that the
availability of large corpora has resulted in more functional Natural
Language Processing (NLP). This evolution carries the potential of a
major impact on theory: corpora and automatic acquisition of knowledge
from corpora (especially using machine learning techniques) makes it
possible to get semantics based on language use.

Each of the next three chapters deals with a different level of
analysis (lexical semantics for semantic annotation, predicative
semantics for relation extraction, and text semantics for technical
document modelling). I suggest the idea of a continuum between these
levels, since they all share fundamental similarities that affect the
techniques used.

I emphasize, in the conclusion, the similarities between these three
different levels: the complex problem of the relations between words
and concepts, the fuzziness of linguistic categories, the great
variability of language. I conclude with a discussion on the
relationship between NLP and linguistics, before proposing future
research through alternative routes.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------