<html>
<b>*******************************<br>
ELRA Technical Centers<br>
*******************************<br>
</b>Our apologies if you receive multiple copies<br>
<br>
<b>*** CALL FOR CREATING A NETWORK OF TECHNICAL CENTERS <br>
FOR WRITTEN LANGUAGE RESOURCES VALIDATION *** <br>
<br>
1. Preamble<br>
<br>
</b>Describing, assuring and improving the quality of language resources
are<br>
important tasks. The assurance of such quality is an important factor
in<br>
ELRA’s success. In the start up phase of ELRA it was foreseen that
a<br>
Network of Technical Centers should be established to handle
quality<br>
control.<br>
To date a technical center for the validation of <i>spoken</i> language
resources<br>
has been established. ELRA now intends to initiate the establishment
of<br>
a network of technical centers for the validation of <i>written</i>
language resources,<br>
the Validation Centers for Written Language Resources or VC_WLR. <br>
Written resources include lexicons as well as text corpora, possibly
enriched<br>
with all kinds of annotations (POS-tags, syntactic structures,
etc.).<br>
The procedure to establish the VC_WLR is identical to the one adopted
in<br>
establishing the technical centers for spoken language resources, viz.
they<br>
are to be established via an open call. Those European institutions
willing<br>
to act as a VC_WLR for ELRA should send an offer to ELRA.<br>
The contents of this offer are described below. In particular, the offer
must<br>
contain a proposal on how to address the problem of the detailed
and<br>
thorough knowledge of a wide variety of languages required by the
validation<br>
of multilingual resources.<br>
<br>
ELRA’s Board will decide which institutions will be selected. The
selection<br>
of each candidate institution will be based on its ability to fulfill the
tasks<br>
described in Section2. The organizational and financial aspects are
described<br>
in Section 3.<br>
<br>
<b>2.Work packages (WP) of the VC_WLR<br>
<br>
2.1 Extending the Methodology for Describing the Quality and
Content<br>
of Existing WLR <br>
<br>
</b>In the catalogue of ELRA many WLR are offered whose quality and<br>
content is not yet described in a satisfactory way. Some projects
have<br>
resulted in linguistic resources distributed by ELRA that are
comparable<br>
across languages in accordance with a commonly agreed content and<br>
format specification (e.g. PAROLE). However, almost no written data<br>
distributed by ELRA have been subject to validation by an external
party<br>
and in accordance with a commonly agreed validation scheme (except
for<br>
a limited number of PAROLE lexicons, and recently in the context of
the<br>
ENABLER project). Though some research into the validation of
linguistic<br>
resources has taken place and recommendations and guidelines have
been<br>
formulated (e.g. Nancy Underwood et al., June 1998; Lou Burnard for
text<br>
corpora), these have to be reviewed and where necessary adapted and
extended<br>
to develop a concrete and workable methodology for the ELRA validation of
written<br>
linguistic resources. The knowledge and expertise gained in the
successful<br>
approach to validation taken in the SpeechDat family of spoken resources
and<br>
by the existing ELRA validation center for spoken resources could be
taken into <br>
consideration here, and its methods and approaches translated into an
approach<br>
adapted for written language resources while maintaining the key elements
that<br>
determined the success of the approach to speech.<br>
<br>
The first task of the VC_WLR is to establish and/or extend the
methodology for<br>
quality and content description so far developed. The related document
should<br>
focus on the quality and content of the WLR offered in the ELRA
catalogue. <br>
A standard form should be developed for describing the content and
quality of a<br>
WLR, starting from the form currently in use and taking into account the
work<br>
carried out within TEI, OLAC, etc. The WLR in the ELRA <br>
catalog will have to be described according to this standard. This
description will<br>
be used as a basis for providing any (potential) user with a quick
overview in the<br>
ELRA catalogue relating to the quality and content of each WLR
offered.<br>
<br>
Output of WP2.1: <br>
- Document describing methodology concerning quality and content<br>
- Content and quality description of all ELRA WLR<br>
<br>
<b>2.2 Improving the Quality of Existing WLR<br>
<br>
</b>Existing WLR may have errors that could be removed with reasonable
effort.<br>
The task of the VC_WLR is to establish a procedure to remove these
errors.<br>
Especially a procedure has to be established which handles the errors
reported<br>
by users of WLR (bug reporting procedure). Further, the existing WLR can
be<br>
improved by better documentation, by reformatting according to
established<br>
standards and by content changes. A similar procedure for spoken
language<br>
resources has been proposed and is currently being implemented and
experimented<br>
with, hence it is sensible to investigate to what extent the procedure
proposed<br>
for SLR can be adopted for the improvement of WLR and what modifications
and or <br>
extensions are necessary or desirable.<br>
The quality of the existing WLR should be gradually improved in
accordance with<br>
a priority scheme that has to be worked out in close cooperation with
ELRA’s<br>
validation committee. The scheme has to be approved by the ELRA
board.<br>
<br>
Output of WP 2.2:<br>
- Report describing the procedure to be used to improve existing
WLR<br>
- Improve existing WLR according to a priority scheme<br>
<br>
<b>2.3 Quality Standards for WLR<br>
<br>
</b>The VC_WLR have to play a leading role in establishing quality
standards for<br>
WLR. for this task the VC_WLR have to cooperate with organizations
involved<br>
in the production of WLR such as the consortia of the PAROLE and
SIMPLE<br>
projects, and with ELRA’s distribution agency (currently ELDA).
Additionally,<br>
the extent to which existing recommendations, guidelines and proposed
standards<br>
from groups such as the EAGLES and ISLE projects can be incorporated
should<br>
be considered throughout.<br>
<br>
Output of WP 2.3:<br>
- Report describing the procedure for building up relationships with
significant<br>
WLR producers and standards groups<br>
- Following on from the report, the establishment of those
relationships<br>
<br>
<b>2.4 Validation of New WLR<br>
<br>
</b>Owners of WLR regularly offer their WLR to ELRA for distribution.
ELRA has<br>
the distribution carried out by its distribution agency (currently ELDA).
Each<br>
time a WLR is offered for distribution, the task of the VC_WLR is to
establish<br>
in cooperation with the owner of the WLR a manual containing:<br>
- The specification of the content of the WLR,<br>
- The validation criteria for checking the quality of the WLR,<br>
- The procedure to validate the WLR.<br>
Based on this manual the VC_WLR have to validate any new WLR offered
for<br>
distribution.<br>
<br>
Output of WP 2.4:<br>
- Report on the validation procedure as specified in a specific contract
between<br>
ELDA and the center(s)<br>
<br>
<b>2.5 Reporting<br>
<br>
</b>Twice a year the VC_WLR must report work undertaken to date to the
board of<br>
ELRA via the head of the validation committee.<br>
<br>
Output of WP 2.5:<br>
- Status reports <br>
<br>
<b>3. Organizational and Financial Issues<br>
<br>
3.1 Relation between ELRA and VC_WLR<br>
<br>
</b>Concerning the tasks 2.1, 2.2, 2.3, 2.5 as described above the
relation between<br>
ELRA and the institution(s) that are appointed as VC_WLR will be
regulated by<br>
a contract between ELRA and those institutions. The contract has to be
renewed<br>
after every fiscal year of ELRA by the Board of ELRA. Three months before
the end<br>
of each fiscal year of ELRA the Board of ELRA will decide on the
financial support<br>
to be given to the VC_WLR for the next fiscal year to perform the tasks
2.1, 2.2, 2.3,<br>
2.5. Annually, a letter of intent will describe a budget for the year for
the VC_WLR.<br>
The initial amount made available will be approximately 15K EUR.<br>
<br>
The ELRA validation committee will act as a steering committee for all
activities<br>
related to validation of written resources. All actions proposed by the
validation<br>
committee and agreed upon between the validation committee and the
appointed<br>
VC_WLR will have to be approved by the ELRA Board.<br>
<br>
<b>3.2 Relation between ELDA and the VC_WLR<br>
<br>
</b>Separate contracts will be made with ELDA concerning task 2.4 on a
case-by-case<br>
basis. <br>
<br>
<b>4. Format and Procedure for Offer<br>
<br>
</b>To apply to be a VC_WLR, send your offer by e-mail (as ASCII or RTF
files,<br>
approx. 2000 words) to the CEO of ELRA (Khalid Choukri,
<font color="#0000FF"><u>choukri@elda.fr)</u></font> and<br>
to the head of the ELRA validation committee (Harald Hoege,<br>
<font color="#0000FF"><u>harald.hoege@mchp.siemens.de</u></font>). The
e-mail should contain:<br>
1. Name of the proposing institute<br>
2. The name of the person at the institute who will be the head of the
VC_WLR.<br>
3. A statement outlining the suitability of the institute to act as a
VC_WLR.<br>
4. A proposal on how the institute plans to provide for the required
detailed and<br>
thorough knowledge of a wide variety of languages. <br>
5. A list of personnel who will work on the tasks to be undertaken by the
VC_WLR.<br>
6. A possible start date<br>
7.3 Sketch of the work for the work packages described that can be
carried out<br>
within the fiscal year 2002 (1.1.02 31.12.02) for a budget of inferior or
equal to 15KEUR.<br>
For each work package a rough estimate for the costs should be
given.<br>
<br>
<b><u>Proposals are due by Friday March 1, 2002.<br>
<br>
</u></b>*****************************<br>
ELRA/ELDA<br>
55-57, rue Brillat Savarin<br>
75013 Paris<br>
France<br>
Tel.: +33 1 43 13 33 33<br>
Fax: +33 1 43 13 33 30<br>
Email: choukri@elda.fr<br>
<br>
******************************<br>
<br>
</html>