Sujet de these: Correction orthographique automatique, Alpage

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Jul 18 10:16:12 UTC 2012


Date: Mon, 16 Jul 2012 12:04:27 +0200
From: Benoît Sagot <benoit.sagot at inria.fr>
Message-Id: <8D2B46C8-07E0-4A48-B629-24A47B92872D at inria.fr>


Offre de thèse au sein de l'équipe Alpage (INRIA & Université Paris 7)
dans le domaine de la correction orthographique automatique

Lieu : Alpage (Paris)
Date : 1/09/2012
Durée : 3 ans

Cette thèse s'inscrit dans le projet "Investissements d'avenir" PACTE,
porté par l'entreprise Diadeis, et dont sont également partenaires le
Laboratoire d'Informatique de l'Université du Maine (LIUM) et les
entreprises A2IA et Isako. PACTE a pour objectif l’amélioration qualité
orthographique des textes issus de différentes méthodes de capture
textuelle. L'accent est mis sur les sorties de OCR (reconnaissance
optique de caractères sur des textes imprimés scannés), mais concerne
également des données obtenues par reconnaissance d’écriture manuscrite,
par saisie manuelle, et par rédaction directe. Les techniques qui seront
utilisées sont à la fois statistiques et hybrides, faisant usage
d'outils et de ressources de linguistique informatique. Le domaine
applicatif principal du projet est celui de la numérisation du
patrimoine écrit, dans un contexte multilingue.

Dans ce contexte, l'enjeu de la thèse est de comprendre comment des
connaissances linguistiques peuvent aider à optimiser automatiquement ou
quasi-automatiquement la qualité orthographique des textes, avec des
objectifs proches du zéro-faute en sortie, tout en maintenant un temps
de traitement très bas compatible avec les très gros volumes de données
à traiter.

Plus précisément, l'objectif est d'exploiter des connaissances, outils
et ressources dédiées à l'analyse linguistique de surface (étiquetage
morphosyntaxique, analyse morphologique, connaissances lexicales, et
autres) pour identifier automatiquement les (rares) erreurs
orthographiques issues de l'OCR (ou d'autres méthodes de capture
textuelle) et pour les corriger automatiquement (ou
semi-automatiquement), avec pour objectif une correction aussi parfaite
que possible.

Deux enjeux sont d'ores et déjà identifiés. Un premier enjeu consiste à
comprendre comment l’analyse morphosyntaxique, voire d’autres approches
utilisant des connaissances linguistiques, peuvent aider à distinguer
les mots inconnus qu'il faut corriger de ceux qu’il ne faut pas
corriger, et d’induire ainsi des informations pertinentes à partir de
chaque corpus à traiter (lexique spécifique, règles de correction
spécifiques pour des correcteurs à règles, coût optimal pour chacune de
ces règles de correction, nouveaux outils de correction
statistique). Ceci fera suite à certains travaux développés au sein du
projet ANR EDyLex (2010-2013) dont Alpage est le porteur.

Un second objectif consiste à développer des modèles de langage qui
fassent usage d’informations de nature morphosyntaxique, sous la forme
de modèles de type tagging, sans exclure a priori d’autres
informations. Différentes approches et outils seront utilisés et
comparés, et notamment l’analyseur morphosyntaxique MElt développé à
ALPAGE. Des expériences seront menées notamment sur la sortie des
moteurs de correction développés ou utilisés au sein du projet. Des
études comparatives seront menées pour mesurer l’apport éventuel de ce
type d’approche par rapport aux modèles de langue de type n-grammes
développés par le LIUM, en prenant en compte d’éventuelles dégradations
en termes de temps de calcul et/ou d’empreinte mémoire.

Les langues étudiées seront prioritairement le français et l’anglais,
ainsi que l’allemand, pour lequel un des travaux d’adaptation des outils
sont à prévoir. Une application à l'espagnol, l'Italien, voire d'autres
langues européennes est possible.

Profil recherché :

- bonnes compétences en informatique (perl et/ou python — au mieux, les
  deux —, C, UNIX/linux ; une compétence en apprentissage automatique
  est souhaitable)

- formation en Traitement Automatique des Langues, ou, à défaut,
  appétence pour les données linguistiques

Contact: Benoît Sagot (benoit.sagot at inria.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list