Sujet de these: Correction orthographique par traduction statistique

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sat Jul 28 10:57:57 UTC 2012


Date: Wed, 25 Jul 2012 15:47:22 +0200
From: Loic Barrault <loic.barrault at lium.univ-lemans.fr>
Message-Id: <5276FA4C-295F-41A2-AD44-705B9FAC281D at lium.univ-lemans.fr>

Offre de thèse financée au sein du laboratoire d'Informatique de
l'Université du Maine (LIUM) dans le domaine de la correction
orthographique automatique par méthodes de traduction statistique.

Lieu : LIUM (Le Mans)
Date : 1/10/2012
Durée : 3 ans

Cette thèse s'inscrit dans le projet "investissement d'avenir" PACTE,
porté par l'entreprise Diadeis, et dont sont également partenaires
l'équipe Alpage (INRIA et Paris 7), et les entreprises A2ia et
Isako. PACTE a pour objectif l'amélioration de la qualité orthographique
des textes issus de différentes méthodes de capture textuelle. L'accent
est mis sur les sorties d'OCR (reconnaissance optique de caractères sur
des textes imprimés scannés), mais concerne également des données
obtenues par reconnaissance d'écriture manuscrite, par saisie manuelle,
et par rédaction directe. Les techniques qui seront utilisées sont à la
fois statistiques et hybrides, faisant usage d'outils et de ressources
de linguistique computationnelle. Le domaine d'application principal du
projet est celui de la numérisation du patrimoine écrit, dans un
contexte multilingue.

Une deuxième thèse démarrera à Alpage avec un accent sur l'utilisation
des connaissances linguistiques pour aider à optimiser automatiquement
ou quasi-automatiquement la qualité orthographique des textes. Dans le
cadre du projet PACTE, une étroite collaboration aura lieu entre le
LIUM, Alpage et la société Diadeis.

Dans ce contexte, l'enjeu de la thèse au LIUM est d'analyser comment
utiliser les techniques de traduction automatique statistique pour la
correction d'erreur. En effet, on peut considérer la correction d'erreur
comme un processus de passage d'une langue erronée vers une langue
correcte. Une approche similaire a déjà été utilisée avec succès pour
corriger les sorties des systèmes de traduction par règles, connue sous
le nom "statistical post-editing (SPE)". Dans le cadre de cette thèse,
il s'agit donc d'étudier comment une approche similaire peut être
utilisée pour la correction orthographique.

Un aspect important de cette thèse concerne le développement de modèles
de langue efficaces, donnant de bons résultats avec une faible empreinte
mémoire. Les modèles n-grammes à repli seront privilégiés, mais d'autres
méthodes seront également explorées, notamment la modélisation dans
l'espace continu (continuous space language models). Nous nous
intéresserons aussi à l'intégration de connaissances morphosyntaxiques,
en collaboration avec l'équipe Alpage.

Les langues étudiées seront prioritairement le français et l'anglais,
ainsi que l'allemand. Une application à l'espagnol, l'italien, voire
d'autres langues européennes est possible.

Profil recherché :
- bonnes compétences en informatique (la maîtrise de Linux est
  indispensable, programmation en C++, utilisation de scripts, Perl, etc);
- des connaissances en traduction automatique statistique sont
  souhaitées, ou, à défaut, en apprentissage automatique;
- une expérience avec l'outil Moses est un plus.

La thèse se déroulera au sein de l'équipe LST du LIUM. Le LIUM est connu
au niveau international pour ses recherches dans le domaine de la
traduction statistique, et nous avons de nombreuses collaborations avec
des universités et entreprises en Europe et aux États-Unis.

Contact : Holger Schwenk
Holger.Schwenk at lium.univ-lemans.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list