Job: Postdoc au LIUM, Correction orthographique par methodes de traduction automatique statistique

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Apr 3 11:46:47 UTC 2013


Date: Tue, 2 Apr 2013 15:58:40 +0200
From: Loic Barrault <loic.barrault at lium.univ-lemans.fr>
Message-Id: <7380DFF4-D608-4941-83E9-A73DC860AC6F at lium.univ-lemans.fr>

Offre de post-doc au LIUM

Traitement Automatique du Langage
	–
Correction de sorties d’OCR, traduction automatique statistique,
modélisation du langage.

Offre de postdoc au sein du laboratoire d’Informatique de l’Université
du Maine (LIUM) dans le domaine de la correction orthographique par
méthodes de traduction automatique statistique.

Résumé de l’offre
– Thématiques : traitement du langage naturel, application à la
  correction d’OCR et traduction automatique statistique.
– Lieu : LIUM (Le Mans), équipe LST (http ://www-lium.univ-lemans.fr/).
– Période : disponible dès maintenant pour une durée d’un an
  renouvelable.

Contexte

Ce postdoc s’inscrit dans le projet PACTE ("investissement d’avenir"),
porté par l’entreprise Diadeis, et dont sont également partenaires
l’équipe Alpage (INRIA et Paris 7), et les entreprises A2ia et Isako.
PACTE a pour objectif l’amélioration de la qualité orthographique des
textes issus de différentes méthodes de capture textuelle. 
L’accent est mis sur les sorties d’OCR (reconnaissance optique de
caractères) sur des textes imprimés scannés, mais concerne également des
données obtenues par reconnaissance d’écriture manuscrite, par saisie
manuelle, et par rédaction directe.
Les techniques qui seront utilisées sont à la fois statistiques et
hybrides, faisant usage d’outils et de ressources de linguistique
computationnelle.

Objectifs
Vérification et correction des sorties d’OCR par des méthodes de
modélisation statistique du langage. 
Les systèmes OCR utilisés n’exploitent pas ou peu de connaissance sur la
langue. 
L’objectif est d’exploiter la modélisation de la langue afin combler ce
manque.

Utilisation de la traduction automatique statistique pour la correction
d’erreurs des sorties d’OCR. 
La correction des sorties d’OCR peut être vue comme une tâche de
traduction d’un texte erroné vers un texte correct. 
Dans le cadre de l’OCR, le paradigme de traduction doit être adapté afin
de prendre en compte les spécificités de la tâche.

Le cadre applicatif de ce travail est assez exceptionnel, avec
l’exploitation d’une grande quantité de données issue notamment du
Bureau Européen des Brevets (EPO - European Patent Office) et du Journal
Officiel de l’Union Européenne.


Profil recherché
– Compétences en informatique : environnement Linux, C++, scripting,
  etc. ;
– Connaissances en apprentissage automatique, linguistique
  computationelle.
– Une expérience en traduction automatique statistique est un plus.

Le postdoc se déroulera au sein de l’équipe LST du LIUM. 
Le LIUM est connu au niveau international pour ses recherches dans le
domaine de la traduction automatique statistique, et possède de
nombreuses collaborations avec des universités et entreprises en Europe
et aux États-Unis.

Contacts
 Envoyer une lettre de motivation et un CV montrant vos compétences pour
  ce poste aux adresses suivantes :
 Loïc Barrault : loic.barrault at lium.univ-lemans.fr 
 Holger Schwenk : holger.schwenk at lium.univ-lemans.fr 

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list