Th èse : André Bittar, Construction d'un TimeBank du français

andre.bittar andre.bittar at YAHOO.COM
Fri Nov 5 17:14:48 UTC 2010


Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée « Construction d'un TimeBank du français : un corpus de référence annoté selon la norme ISO-TimeML ». Un résumé vous en est donné ci-dessous.

La soutenance se déroulera le vendredi 19 novembre 2010 à 14h en salle 3E91 à l'UFR de Linguistique de l'Université Paris Diderot (Paris 7), 3ème étage, 16 rue Clisson, 75013 Paris (métro Chevaleret). Un plan est consultable à l'adresse suivante: http://tinyurl.com/ufrl-paris-diderot-clisson

Vous êtes aussi chaleureusement invités au pot qui suivra.

Cordialement,
André Bittar

Composition du jury :
-------------------

Pascal Amsili - Maître de conférences, LLF, Université Paris Diderot (Co-directeur)
Laurence Danlos - Professeur, Alpage-INRIA, Université Paris Diderot (Directrice)
Pascal Denis - Chargé de recherche, Alpage-INRIA (Co-directeur)
Michel Gagnon - Professeur, École Polytechnique de Montréal (Rapporteur)
Philippe Muller - Maître de conférences, IRIT, Université de Toulouse Paul Sabatier (Président)
James Pustejovsky - Professeur, Brandeis University (Rapporteur)

Résumé :
------

Cette thèse présente le développement de ressources pour le traitement des informations temporelles de textes en français et en particulier la construction d'un corpus de référence, le French TimeBank, annoté selon la norme ISO-TimeML. Les expressions temporelles, les événements ainsi que les relations temporelles qui existent entre ces entités y sont marqués. Pour la mise en œuvre de ce projet d'annotation, nous avons aussi développé un guide d'annotation ISO-TimeML pour le français et un système d'annotation automatique à base de règles. La création de ce guide a donné lieu à des améliorations du langage ISO-TimeML. D'une
part, nous proposons des extensions du schéma d'annotation afin de permettre le traitement de phénomènes linguistiques en français, tels que les temps verbaux, l'aspect grammatical et les verbes modaux. D'autre part, nous proposons un ensemble d'améliorations pouvant également s'appliquer à d'autres langues. Le système d'annotationautomatique a quant à lui servi à effectuer un traitement préalable des textes avant de procéder à une correction par des annotateurs humains. Une analyse quantitative et qualitative du French TimeBank nous a permis d'évaluer la méthodologie suivie pour sa création ainsi que de donner un aperçu du matériel linguistique employé pour l'expression de la temporalité en français. Cette analyse comprend une comparaison avec le corpus TimeBank 1.2 pour l'anglais. Nous relevons aussi un certain nombre de points pouvant aider à améliorer les outils d'annotations.

Mots-clés : annotation temporelle, corpus annoté, temporalité, ISO-TimeML, événement, expression temporelle, relation temporelle

Summary:
-------

This dissertation presents the development of resources for the processing of temporal information in French texts, with a particular focus on the construction of a reference corpus, the French TimeBank, annotated according to the ISO-TimeML standard. Temporal expressions and events, as well as the temporal relations between these entities are marked up. To carry out this annotation project, we also developed an ISO-TimeML annotation guide for French and an automatic rule-based annotation system. The creation of the guide lead us to propose a number of improvements to the ISO-TimeML language. Firstly, we propose extensions to the annotation schema in order to deal with certain linguistic phenomena in French, such as verb tense, grammatical aspect and modal verbs. Secondly, we propose a set of improvements also applicable to other languages. The automatic annotation system was used to perform preliminary processing of the texts before a manual correction by human annotators. A quantitative and qualitative analysis of the French TimeBank allowed us to evaluate the methodolgy adopted for its creation as well as giving insight into the linguistic material used to talk about time in French. This analysis includes a comparison with the TimeBank 1.2 corpus for English. We also note a number of factors that could help improve annotation tools.

Keywords: temporal annotation, annotated corpus, time, ISO-TimeML, event, temporal expression, temporal relations


-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20101105/2f9b2683/attachment.htm>


More information about the Parislinguists mailing list