Appel: Second scanned documents processing evaluation

Fri Sep 13 17:58:06 UTC 2013

Date: Thu, 12 Sep 2013 11:33:03 +0200
From: "Oparin Ilya" <Ilya.OPARIN at lne.fr>
Message-ID: <D2AEDB8E0BD7AD48B864D35B738588AE7CE2C2 at TMSG2.intra.lne>
X-url: http://www.lne.fr/

This is the Call for Participation in the second scanned documents
processing evaluation campaign MAURDOR 2013. You can find the detailed
information below (French and English versions).

### French version ###

*** Campagne d’évaluation MAURDOR : nouvelle édition ***

Le traitement automatique de documents numérisés est en plein essor. Les
campagnes MAURDOR visent à évaluer des systèmes de traitement
automatique de documents écrits. Elles cherchent à quantifier et
qualifier les capacités des systèmes à extraire des informations
pertinentes à partir d’images issues de la numérisation de documents
écrits.

Après le succès de la première campagne MAURDOR qui s’est déroulée au
printemps 2013, le Laboratoire National de métrologie et d’Essais (LNE)
et CASSIDIAN coordonnent une seconde édition. Ils proposent un cadre
commun de tâches afin de rendre compte des performances actuelles des
systèmes de traitement automatique de documents numériques.

Pour remplir cet objectif, le LNE fournira aux participants les éléments
suivants :

- Des données cohérentes de développements et de test, correspondant aux
  domaines applicatifs concernés.

- Des outils de métriques automatiques de la performance des systèmes.

- Un protocole d’évaluation commun applicable à chacune des étapes de
  traitement ainsi qu’à une chaine complète de traitement automatique de
  documents écrits.

Le plan d’évaluation de la campagne est accessible sur
www.maurdor-campaign.org

Un atelier sera organisé à la fin de chaque campagne pour rendre compte
des résultats obtenus et confronter les approches des différents
participants.

** Un corpus de documents hétérogènes **

Une des particularités de l’évaluation MAURDOR est de s’appuyer sur un
corpus de documents très hétérogènes.

Le corpus d’apprentissage MAURDOR 2 comportera au total 7 000 documents
en anglais, français et arabe correspondant aux catégories suivantes

- Des formulaires (environ 12% du corpus) vierges ou complétés

- Des documents commerciaux (environ 40% du corpus) imprimés mais
  également commentés .manuellement

- Des correspondances privées manuscrites (environ 25% du corpus)
  pouvant parfois contenir des entêtes imprimées

- Des correspondances commerciales (environ 20% du corpus) imprimées
  mais également commentées manuellement

- D’autres documents comme des articles de journaux ou des
  plans…(environ 3% du corpus)

Les systèmes seront évalués sur un corpus de 1 000 documents dont la
répartition par catégorie respectera les mêmes proportions que celles du
corpus d’apprentissage.

** Tâches évaluées **

MAURDOR repose sur la définition d’une chaîne de traitement complète
dans laquelle cinq modules distincts sont mis en œuvre. Chaque module
remplit une fonction particulière et contribue au traitement complet du
document. Ce sont ces cinq modules qui seront évalués au cours de la
campagne. Les modules sont les suivants :

- Module n°1 : Typage des zones d’un document permettant de segmenter
  les images de documents en zones distinctes

- Module n°2 : Typage de la nature de l’écriture (manuscrite,
  dactylographiée)

- Module n°3 : Identification de la langue (anglais, arabe, français ou
  autre)

- Module n°4 : Reconnaissance de l’écriture dactylographiée et
  manuscrite (OCR).

- Module n°5: Extraction de la structure du document.

Une évaluation applicative sera également effectuée. Elle consistera à
évaluer la complétude et la précision de la reconnaissance par rapport à
la présence de mots clés dans les documents.

** Comment participer ? **

Cette campagne est ouverte à toutes les personnes, entreprises ou
institutions qui souhaiteraient évaluer leur approche en matière de
traitement automatique de documents numériques.

Tous les participants devront présenter leur(s) système(s) lors de
l’atelier et être en capacité d’expliquer ses fondements. L’atelier est
réservé aux participants à la campagne et aux agences ayant financé le
projet.

Les modules étant indépendant, les participants peuvent s’inscrire pour
évaluer une chaîne complète (évaluation applicative) ou des modules de
leur choix. L’inscription se fait sur le site www.maurdor-campaign.org

** Dates importantes **

Accès au plan d’évaluation             01/07/2013    

Date limite d’inscription              04/10/2013 

Accès aux données d’apprentissage      01/07/2013

Début de la campagne d’évaluation      04/11/2013

Fin de la campagne d’évaluation        02/01/2014

Début de la phase d’adjudication       02/01/2014

Fin de la phase d’adjudication         10/01/2014 

Atelier                                Février 2014

### English version ###

*** MAURDOR-campaigns: Scanned documents processing evaluations ***

** Presentation **

Scanned documents processing is an important issue for information
retrieval. The MAURDOR campaigns aim at assessing the progress of
automatic systems in this area. The goal is to evaluate the ability of
the systems to extract relevant information in scanned documents.

After the success of the first campaign that took place in spring 2013,
the Laboratoire national de métrologie et d’essais (LNE) and CASSIDIAN,
an EADS company, will conduct a new MAURDOR evaluation campaign in order
to support research in Scanned documents processing and help advancing
the state of the art in Optical Characters Recognition technologies.

The LNE and CASSIDIAN provide the following to participants:

- Consistent data for training, development and test sets.

- Automatic scoring tools.

- Common rules needed to assess different steps essential for scanned
  documents processing.

A workshop will be organized at the end of the campaign to account for
the results and compare the approaches of various participants. The
evaluation plan is available at www.maurdor-campaign.org

** A heterogeneous database **

The MAURDOR evaluations are based on a very heterogeneous database. The
training set is multilingual (English, French, And Arabic) and consists
of 7,000 different documents corresponding to the following classes:

- Blank forms and completed forms (around 12% of the database)

- Typewritten commercial documents with sometimes several manual
  annotations (around 40% of the database)

- Handwritten personal letters with sometimes typewritten headers
  (around 25% of the database)

- Commercial letters such as purchase orders or bills (around 20% of the
  database)

- Other documents like newspapers articles or maps…(around 3% of the
  database).

The test set contains 1,000 documents. The proportion of documents
belonging to different categories is the same as for the training data

** Tasks **

MAURDOR is based on a complete processing chain in which five separate
modules are implemented. Each module performs a particular function
contributing to the complete processing of a scanned document. The
following five modules are independently assessed during the campaign:

- Task 1: Segmentation and typing areas (table, text, image…)

- Task 2: Type writing characterization (handwritten or typewritten
  characters)

- Task 3: Language identification

- Task 4: Optical Characters Recognition

- Task 5: Establishing reading order and relations between areas

Participants can submit systems for individual tasks of their choice.

An evaluation will also be performed for an operational application as
an end-to-end processing chain. It is evaluated in a keyword spotting
scenario.

** How to participate? ** 

This evaluation is intended to be of interest of all researchers working
on the problem of scanned documents processing. The only requirement is
the participation in the closing workshop. All the participants must
attend the evaluation workshop and be prepared to discuss their
system(s), their results in detail. To participate it is sufficient to
fill out the registration form available at www.maurdor-campaign.org

** Important dates **

Evaluation plan released          01/07/2013

Training data available           01/07/2013

Beginning of the campaign         04/11/2013

End of the campaign               02/01/2014

Beginning of the adjudication     02/01/2014

End of the adjudication           10/01/2014 

Workshop                          February 2014

###

Ilya OPARIN
NLP research engineer
National Metrology and Testing Laboratory
Tel: +33 1 30 69 14 91

Laboratoire national de métrologie et d'essais
29, avenue Roger Hennequin - 78197 Trappes cedex - France
Tel: +33 1 30 69 10 00 - Fax: +33 1 30 69 12 34
Site internet : www.lne.eu

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------