These: Assaf Urieli, Analyse syntaxique robuste du fran çais

Thierry Hamon hamon at LIMSI.FR
Wed Dec 4 13:23:19 UTC 2013


Date: Tue, 3 Dec 2013 16:34:19 +0100
From: Assaf Urieli <assaf.urieli at univ-tlse2.fr>
Message-ID: <CAM62byoRQvgriXMjY6G3Jy3zVwCks+p6yE=wuEVYeqqP5YMbAg at mail.gmail.com>

Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
"Analyse syntaxique robuste du français : concilier méthodes
statistiques et connaissances linguistiques dans l'outil Talismane". La
soutenance aura lieu le mardi 17 décembre 2013 à 14h00 dans la salle D31
de la Maison de la Recherche de l'Université de Toulouse le Mirail. La
Maison de la Recherche se trouve juste à côté de la bibliothèque
universitaire. Un plan se trouve à l'adresse suivante :
http://www.univ-tlse2.fr/accueil/infos/pratique/adresses-et-acces/plan-du-campus-avec-l-index-des-ufr-services-et-salles-de-cours-6337.kjsp

Vous êtes également conviés au pot de thèse qui suivra la soutenance.

Bien cordialement,
Assaf Urieli

------------------------------------------------------------------------
Le jury de soutenance sera composé de :
M. Alexis Nasr, Professeur, LIF, Marseille - Rapporteur
M. Eric Wehrli, Professeur, LATL, Genève - Rapporteur
Mme Marie Candito, Maître de Conférences, ALPAGE, Paris Diderot -
Examinatrice
M. Nabil Hathout, Directeur de Recherche, CLLE, Toulouse - Examinateur
M. Ludovic Tanguy, Maître de Conférences HDR, CLLE, Toulouse - Directeur
de thèse

Titre en français :
Analyse syntaxique robuste du français : concilier méthodes statistiques
et connaissances linguistiques dans l'outil Talismane

Résumé de la thèse :
Dans cette thèse, nous explorons l’analyse syntaxique statistique
robuste du français. Notre principal souci est de trouver des méthodes
qui permettent au linguiste d’injecter des connaissances et/ou des
ressources linguistiques dans un moteur statistique afin d’améliorer les
résultats à la fois globalement et pour certains phénomènes
spécifiques. D’abord, nous décrivons le schéma d’annotation en
dépendances du français, et les algorithmes capables de produire cette
annotation, en particulier le parsing par transitions. Après avoir
exploré les algorithmes d’apprentissage automatique supervisé pour les
problèmes de classification en TAL, nous présentons l’analyseur
syntaxique Talismane, développé dans le cadre de cette thèse, qui
comprend quatre modules statistiques – le découpage en phrases, la
segmentation en mots, l’étiquettage morpho-syntaxique et le parsing –
ainsi que les diverses ressources linguistiques utilisées par les
modèles de base. Nos premières expériences ont permis d’identifier la
meilleure configuration d’apprentissage parmi les nombreuses
configurations possibles. Ensuite, nous explorons les améliorations
apportées par le principe de recherche par faisceau (beam search) et la
propagation du faisceau d'un module à un autre. Finalement, nous
présentons une série d’expériences dont le but est de corriger des
erreurs linguistiques spécifiques au moyen de descripteurs ciblés pour
l'apprentissage. Une de nos innovations est l’introduction des règles
qui imposent ou interdisent certaines décisions locales, permettant
ainsi de contourner le modèle statistique, et nous explorons
l’utilisation de règles pour les erreurs que les descripteurs n’ont pas
pu corriger. Finalement, nous explorons l’utilisation de ressources
linguistiques à large couverture, au travers d'une expérience
d'apprentissage semi-supervisé avec une ressource lexicale produite par
une analyse sémantique distributionnelle.

Titre en anglais :
Robust French syntax analysis: reconciling statistical methods and
linguistic knowledge in the Talismane toolkit

Résumé en anglais :
In this thesis we explore robust statistical syntax analysis for French.
Our main concern is to explore methods whereby the linguist can inject
linguistic knowledge and/or resources into the robust statistical engine
in order to improve results both globally and for specific phenomena. We
first explore the dependency annotation schema for French, concentrating
on certain phenomena. Next, we look into the various algorithms capable
of producing this annotation, and in particular on the transition-based
parsing algorithm used in the rest of this thesis. After exploring
supervised machine learning algorithms for NLP classification problems,
we present the Talismane toolkit for syntax analysis, built within the
framework of this thesis, including four statistical modules - sentence
boundary detection, tokenisation, pos-tagging and parsing - as well as
the various linguistic resources used for the baseline model, including
corpora, lexicons and feature sets. Our first experiments enabled us to
identify the best baseline among various machine learning
configurations.  We then look into improvements made possible by a beam
search and by beam propagation from one module to the next. Finally, we
present a series of experiments aimed at correcting errors related to
specific linguistic phenomena, using targeted features. One of our
innovations is the introduction of rules that can impose or prohibit
certain decisions locally, thus bypassing the statistical model. We
explore the usage of rules for errors that the features are unable to
correct. Finally, we look into the enhancement of targeted features by
large scale linguistic resources, and in particular a semi-supervised
approach using a lexical resource constructed using distributional
semantic techniques.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list