Sujet de these: TAL, Traitement automatique de l=?WINDOWS-1252?Q?=92information_?=temporelle

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed May 11 06:06:31 UTC 2011


Date: Mon, 9 May 2011 14:53:34 +0200 (CEST)
From: "Battistelli Delphine" <Delphine.Battistelli at paris-sorbonne.fr>
Message-ID: <7e70bd2680b5c811f2bd4ea0e877ab8c.squirrel at mail.paris-sorbonne.fr>
X-url: http://owni.fr/2011/04/12/internet-civilise-la-timeline/
X-url: http://www.chronolines.fr/

*** Proposition de thèse financée en TAL ***

Durée du financement : 3 ans (salaire brut 1800 Euros par mois
environ) Cadre : projet ANR ChronoLines (programme Contint)
Encadrants : Delphine Battistelli (MC-HDR - Université Paris Sorbonne)
et Jean-Luc Minel (PR – Université Paris Ouest Nanterre La Défense)

Idéalement, le/la candidat(e) conjuguera des compétences en
linguistique textuelle (analyse des marqueurs temporels de
cohésion/incohésion textuelle) et en traitement automatique des
langues dans sa composante sémantique (élaboration de schémas
d'annotation). Le/la candidat(e) recruté(e) sera impliqué(e) dans les
6 taches qui composent le projet, qui vont de l'analyse proprement
linguistique à la participation à des campagnes d'évaluation
d'applications finalisées. Il/elle devra contribuer à une avancée
notable dans la modélisation des phénomènes de prise en charge
énonciative et modale dans leur interaction avec les phénomènes de
datation calendaire et d'ordonnancement temporel.

- Contexte de la recherche : les « timelines »

Le traitement automatique de l'information temporelle exprimée dans
les textes s'impose depuis quelques années comme un champ de recherche
important auquel on associe des retombées dans le domaine de la
recherche d'information (pour une présentation de ce domaine, on
pourra se reporter à (Battistelli, 11)). Parmi les applications visées
: les systèmes de questions/réponses, les systèmes de résumé
automatique, les moteurs de recherche sur le web et, intégrés ou non à
ces derniers, les systèmes visant à proposer en sortie une
visualisation des informations sur une ligne du temps. Dans ce dernier
cas, on parle aussi d'interfaces interactives sous la forme de «
frises chronologiques » (ou timelines, voir par exemple l'article
http://owni.fr/2011/04/12/internet-civilise-la-timeline/). Réalisées
essentiellement à la main, ces types de représentations organisées sur
une ligne du temps calendaire des événements semblent correspondre à
de réels besoins, émanant tant des internautes cherchant à structurer
leur espace de recherche que de communautés d'utilisateurs spécifiques
comme par exemple les journalistes de l'évènementiel. Quand cette
démarche est assistée par des outils de traitement automatique, cela
revient principalement à repérer la date de parution de tel ou tel
document considéré comme traitant a priori d'un seul évènement.  Le
projet ChronoLines (http://www.chronolines.fr/) se situe dans ce
dernier champ d'applications. Il se donne comme principal objectif que
de coupler des techniques d'analyse temporelle automatique des textes
avec des techniques de visualisation de l'information. La méthodologie
proposée repose sur l'analyse et la spécification d'un besoin de l'un
des partenaires, l'AFP, qui diffuse dans ses services de nombreuses «
Chronologies Evènementielles » (CE) sur toute sorte d'événements «
médiatiques ». Ces CE sont actuellement réalisées à la main et sont
purement textuelles. Elles sont inadaptées à l'usage multimédia,
internet et mobile qui est devenu la règle. Les visées du projet
ChronoLines s'articulent selon deux axes : (i) construire ces CE à
partir d'un repérage semi-automatisé d'événements et d'expressions
temporelles datatives dans des textes de type ‘dépêches' (en français
et en anglais) ; (ii) développer des outils permettant à un
utilisateur de visualiser et de naviguer à l'intérieur de ces CE en
utilisant des technologies de visualisation multimédias. Les
représentations visuelles ne s'appuieront pas exclusivement sur un axe
temporel unique correspondant au domaine des évènements déjà réalisés
et avérés, mais permettront également de visualiser des événements
incertains, possibles ou encore seulement pris en charge par un
énonciateur dont l'auteur de la dépêche cite les propos sans forcément
y adhérer. Par ailleurs, elles incluront la possibilité de visualiser
l'information à différents niveaux de granularité calendaire.

- Sujet de la thèse :

Thème :

Dans le contexte décrit supra, la thèse concernera l'analyse et la
modélisation des caractéristiques modales et énonciatives des
évènements.  Il s'agira de proposer une méthodologie d'analyse
opératoire pour la prise en compte de deux phénomènes de rupture
d'ordre temporel rencontrés dans les textes (le plus souvent combinés
entre eux, ce qui rend leur analyse d'autant plus complexe) : l'un est
lié à l'organisation du discours du point de vue des sources
énonciatives (l'énonciateur principal, le plus souvent implicite, et
différents co-énonciateurs) ; l'autre est lié à l'organisation du
discours du point de vue des caractéristiques modales des contenus
propositionnels (des contenus attestés aux contenus niés selon un
continuum). Dans la littérature sur le sujet, tant linguistique que
TAL, l'analyse de ces deux phénomènes fait l'objet de nombreux débats
; on note en particulier que ces phénomènes ne sont pas toujours
associés – du moins directement - à l'analyse de la temporalité en
tant que telle.  Notre point de vue quant à l'analyse de ceux-ci
consiste à non seulement les considérer comme tels mais aussi à en
proposer une stratégie d'exploration opératoire, c'est-à-dire pouvant
conduire à des modes d'analyses automatisables. La conduite de cette
stratégie opératoire repose d'une part sur le fait de travailler sur
des textes d'un type circonscrit (des dépêches) et d'autre part sur le
fait de s'intéresser en premier lieu à l'articulation de ces deux
phénomènes avec celui de la datation (Battistelli et al., 06, 11 ;
Hagège et Tannier, 08), au niveau de la phrase d'abord, à un niveau
d'analyse plus large que la phrase ensuite.

Objectifs et méthodologie :

Il s'agira tout d'abord de dresser une typologie précise des
mécanismes de rupture des coordonnées énonciatives et modales liés aux
contraintes d'ordre syntaxique (analyse des subordonnées en
particulier), à l'instar des conceptions proposées respectivement par
(Wilson et Wiebe, 03) et (Bethard et al., 04)) d'une part, et (Sauri
et Pustejovsky, 07) d'autre part. Il s'agira de s'intéresser plus
particulièrement à la catégorisation de ces mécanismes vis-à-vis de la
sémantique des marqueurs lexicaux (sémantique verbale ou nominale) ou
grammaticaux (temps ou modes verbaux) utilisés et de la position des
adverbiaux temporels dans la phrase (X dit que A eu lieu en T1, X
pense que A eu lieu en T1, X aurait dit que A eu lieu en T1, X dit que
A peut être eu lieu en T1, etc.).  Démarche absente des approches de
type TAL, et plutôt abordée dans des approches du courant de la
linguistique textuelle, il s'agira de s'intéresser ensuite à
l'identification de ruptures de coordonnées énonciatives et/ou modales
qui renvoie cette fois à la délimitation de segments textuels plus
larges que les phrases. Ce niveau d'analyse nécessite l'étude de
marqueurs dits de cohésion et d'incohésion temporelle, ces derniers
signalant précisément des ruptures. Ils peuvent être soit de simples
marqueurs typographiques tels que les guillemets, suivis ou non de
deux points, soit des ensembles de marqueurs, soit encore des temps ou
des modes verbaux (c'est ainsi le cas quand à une suite de temps du
passé succède une suite de présents), soit encore des unités
adverbiales de temps (le plus souvent en position initiale de
phrases).  L'identification de ces ruptures conduit à considérer que,
tout en étant éventuellement pris en charge par le même énonciateur,
des segments textuels ne s'inscrivent plus dans la continuité
référentielle des situations décrites précédemment dans le texte. Il
s'agira alors de proposer une typologie de ces « ruptures discursives
» au travers de l'étude des marques d'incohésion citées plus haut.  En
vue de préciser les éléments de cette typologie des phénomènes
énonciatifs et modaux, on pourra s'appuyer plus particulièrement sur
les conceptions linguistiques de (Authier-Revuz 95) ou (Rosier 99) ;
en ce qui concerne l'analyse des marqueurs de cohésion et
d'incohésion, on pourra exploiter en particulier les travaux et modes
d'analyse situés dans la lignée de (Smith 01), (Le Draoulec et
Péry-Woodley 03) ou (Ho-Dac 07). Ce travail conduira à proposer un
schéma d'annotation de segments textuels (des niveaux de la
proposition et de la phrase ou d'un niveau supérieur à ces derniers)
selon leurs caractéristiques modales et/ou énonciatives et produira un
ensemble de ressources lexicales qui seront intégrées aux outils de
traitement automatique.

- Profil du candidat:

Le candidat devra être titulaire d'un Master en traitement automatique
des langues ou en linguistique. Dans ce dernier cas, il devra avoir
des connaissances solides dans le domaine de la sémantique.

- Compétences demandées

Les compétences demandées pour cette thèse pluridisciplinaire sont
diverses. Les éléments suivants seront évalués en priorité :

* compétences en traitement automatique des langues et/ou en linguistique
* compétences de base en informatique et plus spécifiquement maitrise des
  langages de type perl et python
* connaissance de l'anglais


- Comment candidater ?

Envoyer un CV (avec le détail des cours et notes de Master), une
lettre de candidature, ainsi qu'une lettre de recommandation ou les
coordonnées d'au moins un référent universitaire aux adresses
suivantes :

delphine.battistelli at paris-sorbonne.fr
jean-luc.minel at u-paris10.fr


- Références bibliographiques

Authier-Revuz J. (1995). Ces mots qui ne vont pas de soi, Boucles
réflexives et non-coïncidences du dire, Paris: Larousse, 1995

Battistelli D., Minel J.-L., Schwer S. (2006). « Représentation des
expressions calendaires dans les textes : vers une application à la
lecture assistée de biographies », TAL, vol. 47/2, 2006

Battistelli D. (2011). Linguistique et recherche d'information : la
problématique du temps, Hermès, coll. Traitement de l'Information,
2011

Battistelli D., Cori M., Minel J.-L., Teissèdre C. (2011). « Semantics
of Calendar Adverbials for Information Retrieval », in Actes ISMIS'11
(19th International Symposium on Methodologies for Intelligent
Systems), 28 juin-30 juin 2011, Varsovie, Pologne

Bethard S., Yu H., Thornton A., Hatzivassiloglou V., Jurafsky
D. (2004). « Automatic extraction of opinion propositions and their
holders”, in Working Notes of the AAAI Spring Symposium on Exploring
Attitude and Affect in Text: Theories and Applications, March 22-24,
2004, Stanford

Hagège C., Tannier X. (2008). “XTM: A Robust Temporal Text Processor”,
in Computational Linguistics and Intelligent Text Processing, Actes
9th International Conference (CICLing 2008), Haifa, Israel, February
17-23, 2008, Lecture Notes in Computer Science (LNCS 4919), p. 231-240

Ho-Dac J. (2007). La position initiale dans l'organisation du
discours, Thèse de Doctorat, Université deToulouse-le Mirail, novembre
2007

Le Draoulec A., Péry-Woodley M.-P. (2003). « Time travel in text:
temporal framing in narratives and non-narratives », in L. Lagerwerf,
W. Spooren and L. Degand (eds.) Determination of Information and Tenor
in Texts, Multidisciplinary Approaches to Discourse (MAD), Amsterdam :
Stichting Neerlandistiek & Münster : Nodus Publikationen, p. 267-275,
2003

Rosier L. (1999). Le discours rapporté. Histoire, théories, pratiques,
Bruxelles, Paris, Duculot, 1999.

Sauri R., Pustejovsky J. (2007). “Determining Modality and Factuality
for Text Entailment”, in Actes ICSC 2007, September 17-19, 2007,
Irvine, California, 2007.

Smith C. (2001). “Discourse modes: aspectual entities and tense
interpretation », Cahiers de grammaire, Vol. 26, p.183-206, 2001

Wilson T., Wiebe J. (2003). “Annotating opinions in the world Press”,
in Actes 4th SIGdial Workshop on Discourse and Dialogue (SIGdial-03),
ACL SIGdial, 2003.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list