Appel: Scanned documents processing evaluations campaign, MAURDOR 2013
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sat Dec 8 13:01:09 UTC 2012
Date: Thu, 6 Dec 2012 09:45:59 +0100
From: "Oparin Ilya" <Ilya.OPARIN at lne.fr>
Message-ID: <D2AEDB8E0BD7AD48B864D35B738588AE24D914 at TMSG2.intra.lne>
X-url: http://www.maurdor-campaign.org
This is the Call for Participation in the scanned documents processing
evaluation campaign MAURDOR 2013. You can find the detailed information
below (French and English versions).
### French version ###
*** Campagne d’évaluation MAURDOR ***
Le traitement automatique de documents numérisés est en plein essor. La
campagne MAURDOR vise à évaluer des systèmes de traitement automatique
de documents écrits. Elle cherche à quantifier et qualifier les
capacités des systèmes à extraire des informations pertinentes à partir
d’images issues de la numérisation de documents écrits.
Coordonnée par le Laboratoire National de métrologie et d’Essais (LNE)
et CASSIDIAN, la présente campagne d’évaluation propose un cadre commun
de tâches afin de rendre compte des performances actuelles des systèmes
de traitement automatique de documents numériques.
Pour remplir cet objectif, le LNE fournira aux participants les éléments
suivants :
- Des données cohérentes de développements et de test, correspondant aux
domaines applicatifs concernés.
- Des outils de métriques automatiques de la performance des systèmes.
- Un protocole d’évaluation commun applicable à chacune des étapes de
traitement ainsi qu’à une chaine complète de traitement automatique de
documents écrits.
Le plan d’évaluation de la campagne est accessible sur
www.maurdor-campaign.org
Un atelier sera organisé à la fin de chaque campagne pour rendre compte
des résultats obtenus et confronter les approches des différents
participants.
** Un corpus de documents hétérogènes **
Une des particularités de l’évaluation MAURDOR est de s’appuyer sur un
corpus de documents très hétérogènes.
Le corpus d’apprentissage MAURDOR 2013 comportera au total 5 000
documents en anglais, français et arabe correspondant aux catégories
suivantes
- Des formulaires (environ 12% du corpus) vierges ou complétés
- Des documents commerciaux (environ 40% du corpus) imprimés mais
également commentés manuellement
- Des correspondances privées manuscrites (environ 25% du corpus)
pouvant parfois contenir des entêtes imprimées
- Des correspondances commerciales (environ 20% du corpus) imprimées
mais également commentées manuellement
- D’autres documents comme des articles de journaux ou des
plans…(environ 3% du corpus)
Les systèmes seront évalués sur un corpus de 1 000 documents dont la
répartition par catégorie respectera les mêmes proportions que celles du
corpus d’apprentissage.
** Tâches évaluées **
MAURDOR repose sur la définition d’une chaîne de traitement complète
dans laquelle cinq modules distincts sont mis en œuvre. Chaque module
remplit une fonction particulière et contribue au traitement complet du
document. Ce sont ces cinq modules qui seront évalués au cours de la
campagne. Les modules sont les suivants :
- Module n°1 : Typage des zones d’un document permettant de segmenter
les images de documents en zones distinctes
- Module n°2 : Typage de la nature de l’écriture (manuscrite,
dactylographiée)
- Module n°3 : Identification de la langue (anglais, arabe, français ou
autre)
- Module n°4 : Reconnaissance de l’écriture dactylographiée et
manuscrite (OCR).
- Module n°5 : Extraction de la structure du document.
Une évaluation applicative sera également effectuée. Elle consistera à
évaluer la complétude et la précision de la reconnaissance par rapport à
la présence de mots clés dans les documents.
** Comment participer ? **
Cette campagne est ouverte à toutes les personnes, entreprises ou
institutions qui souhaiteraient évaluer leur approche en matière de
traitement automatique de documents numériques.
Tous les participants devront présenter leur(s) système(s) lors de
l’atelier et être en capacité d’expliquer ses fondements. L’atelier est
réservé aux participants à la campagne et aux agences ayant financé le
projet.
Les modules étant indépendant, les participants peuvent s’inscrire pour
évaluer une chaîne complète (évaluation applicative) ou des modules de
leur choix. L’inscription se fait sur le site www.maurdor-campaign.org
** Dates importantes **
Accès au plan d’évaluation 01/12/2012
Accès aux données d’apprentissage 01/12/2012
Début de la campagne d’évaluation 04/03/2013
Fin de la campagne d’évaluation 29/04/2013
Début de la phase d’adjudication 29/04/2013
Fin de la phase d’adjudication 06/05/2013
Atelier Mai 2013
### English version ###
*** MAURDOR-campaigns: Scanned documents processing evaluations ***
** Presentation **
Scanned documents processing is an important issue for information
retrieval. The MAURDOR campaigns aim at assessing the progress of the
automatic systems in this area. The goal is to quantify and qualify the
ability of the systems to extract the relevant information in scanned
documents.
The Laboratoire national de métrologie et d’essais (LNE) and CASSIDIAN,
an EADS company, will conduct evaluation campaigns entitled MAURDOR in
2013 in order to support Scanned documents processing researches and
help advance the state of the art in Optical Characters Recognition
technologies.
The LNE and CASSIDIAN provide the following to the participants:
- Consistent data for the training sets, the development and the test
sets.
- Automatic metrics tools.
- Common rules so as to assess the different steps essential for scanned
documents processing.
A workshop will be organized at the end of the campaign to account for
the results and compare the approaches of various participants. The
evaluation plan is available at www.maurdor-campaign.org
** A heterogeneous database **
The MAURDOR evaluations are based on a very heterogeneous database. The
training set is multilingual (English, French, and Arabic) and consists
on 5,000 different documents corresponding to the following classes:
- Blank forms and completed forms (around 12% of the database)
- Typewritten commercial documents with sometimes several manual
annotations (around 40% of the database)
- Handwritten personal letters with sometimes typewritten headers
(around 25% of the database)
- Commercial letters (around 20% of the database) as purchase orders or
bills
- Other documents like newspapers articles or maps…(around 3% of the
database).
The test set contains 1,000 documents distributed as the training set.
** Tasks **
MAURDOR is based on a complete processing in which five separate modules
are implemented. Each module performs a particular function contributing
to the complete processing of the scanned document. The following five
modules are independently assessed during the campaign:
- Task 1: Segmentation and typing areas (table, text, image…)
- Task 2: Type writing characterization (handwritten or typewritten
characters)
- Task 3: Language detection
- Task 4: Characters recognition
- Task 5: Establishing reading order and relations between areas
An evaluation will be performed for an operational application as an
end-to-end processing chain. It will consist in the assessment of the
completion and the accuracy of the results according to the presence of
keywords in the recognized text.
** How to participate? **
This evaluation is intended to be of interest of all researchers working
on the problem of scanned documents processing. Participation in the
evaluation is invited for all researchers who find the tasks and the
evaluation of interest. The only requirement is the participation in the
follow-up workshop. All the participants must attend the evaluation
workshop and be prepared to discuss their system(s), their results in
detail. To participate, simply fill out the registration form available
at www.maurdor-campaign.org
** Important dates **
Evaluation plan released 01/12/2012
Training data available 01/12/2012
Beginning of the campaign 04/03/2013
End of the campaign 29/04/2013
Beginning of the adjudication 29/04/2013
End of the adjudication 06/05/2013
Workshop May 2013
Another campaign will be organized in 2014.
###
Ilya OPARIN
Ingénieur en traitement automatique des langues
Direction des Essais
Tél. : 01 30 69 14 91
Laboratoire national de métrologie et d'essais
29, avenue Roger Hennequin - 78197 Trappes cedex
Tél. : 01 30 69 10 00 - Fax : 01 30 69 12 34
Site internet : www.lne.fr
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list