<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 14 (filtered medium)"><base target="_blank"><style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";
        mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p
        {mso-style-priority:99;
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
        {mso-style-priority:34;
        margin-top:0cm;
        margin-right:0cm;
        margin-bottom:0cm;
        margin-left:36.0pt;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";
        mso-fareast-language:EN-US;}
span.EmailStyle19
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;
        font-family:"Calibri","sans-serif";
        mso-fareast-language:EN-US;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-GB link=blue vlink=purple><div class=WordSection1><p class=MsoNormal><span style='color:#002060'>Following the release of the <a href="langtech.jrc.ec.europa.eu/JRC-Acquis.html">JRC-Acquis</a> in 2006, the <a href="langtech.jrc.ec.europa.eu/DGT-TM.html">DGT-Translation Memory</a> in several releases since 2007 and the <a href="langtech.jrc.ec.europa.eu/ECDC-TM.html">ECDC-Translation Memory</a> in 2012, we are now releasing the <b><a href="langtech.jrc.ec.europa.eu/DGT-Acquis.html">new parallel corpus DGT-Acquis</a></b>. DGT-Acquis  has been produced by the European Commission’s <i>Directorate General for Translation</i> (DGT) and it is being distributed by the <i>Joint Research Centre</i> (JRC). <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'>DGT-Acquis is a parallel collection of manually translated full-text documents in all 23 official EU languages, that has been paragraph-aligned for all 253 language pairs. It has been produced on the basis of the <i>Official Journal</i> (OJ) of the European Union (more specifically  the L, LM, C, CA and CE Series). <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><b><span style='color:#002060'>Languages:</span></b><span style='color:#002060'>  All 253 language pairs involving the following 23 languages: <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'>                Bulgarian, Czech, Danish, Dutch, English, Estonian, German, <o:p></o:p></span></p><p class=MsoNormal style='text-indent:36.0pt'><span style='color:#002060'>Greek, Finnish, French, Irish, Hungarian, Italian, Latvian, <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'>                Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'>                Slovene, Spanish and Swedish.<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:10.0pt;font-family:"Courier New";color:#632523'>            <o:p></o:p></span></p><p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Courier New";color:#632523'>URL:        </span></b><span style='font-size:10.0pt;font-family:"Courier New";color:#632523'><a href="http://langtech.jrc.ec.europa.eu/DGT-Acquis.html">http://langtech.jrc.ec.europa.eu/DGT-Acquis.html</a><o:p></o:p></span></p><p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Courier New";color:#632523'>Creator:    </span></b><span style='font-size:10.0pt;font-family:"Courier New";color:#632523'>European Commission - Directorate General for Translation (<a href="http://ec.europa.eu/dgs/translation/index_en.htm"><span style='color:#00007F'>DGT</span></a>)<o:p></o:p></span></p><p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Courier New";color:#632523'>Size:</span></b><span style='font-size:10.0pt;font-family:"Courier New";color:#632523'>       3.54 million files; 5 GB in plain text format<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:10.0pt;color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><u><span style='color:#002060'>WHAT IS DGT-Acquis<o:p></o:p></span></u></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'>DGT-Acquis consists of a collection of Official Journal issues published in up to 23 languages between 2004 and 2011. The full-text documents have been paragraph-aligned automatically for all language pairs. The data is being distributed in several formats: (1) the original XML data and its corresponding TIFF files; (2) file level data in Formex4 format; (3) file level data in plain text format; and (4) the same data aligned at paragraph level. Users can thus make use of the aligned data or they can re-process the data using their own tools and methods.<o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><u><span style='color:#002060'>WHAT IS the difference between DGT-Acquis and the other resources distributed by the JRC<o:p></o:p></span></u></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'>While the translation memories <a href="langtech.jrc.ec.europa.eu/DGT-TM.html">DGT-TM</a> and <a href="langtech.jrc.ec.europa.eu/ECDC-TM.html">ECDC-TM</a> are collections of individual translation units (or sentences) taken out of their full-text context, both <a href="langtech.jrc.ec.europa.eu/JRC-Acquis.html">JRC-Acquis</a> and <a href="langtech.jrc.ec.europa.eu/DGT-Acquis.html">DGT-Acquis</a><b> </b>consist of full-text documents aligned at sentence or paragraph level. This allows using the data for applications that need to analyse entire texts, e.g. for discourse structure analysis, to detect domain information, for experiments on automatic summarisation, for translation studies, etc. <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#17375E;mso-style-textfill-fill-color:#17375E;mso-style-textfill-fill-alpha:100.0%'>Regarding the contents of the documents, </span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#002060'><a href="langtech.jrc.ec.europa.eu/JRC-Acquis.html">JRC-Acquis</a> </span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#17375E;mso-style-textfill-fill-color:#17375E;mso-style-textfill-fill-alpha:100.0%'>and </span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#002060'><a href="langtech.jrc.ec.europa.eu/DGT-Acquis.html">DGT-Acquis</a> </span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#17375E;mso-style-textfill-fill-color:#17375E;mso-style-textfill-fill-alpha:100.0%'>partially overlap for the period 2004 to 2006 while the documents for all other time periods should be unique. Comparing the resources used to produce </span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#002060'><a href="langtech.jrc.ec.europa.eu/DGT-Acquis.html">DGT-Acquis</a> </span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#17375E;mso-style-textfill-fill-color:#17375E;mso-style-textfill-fill-alpha:100.0%'>and </span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#002060'><a href="langtech.jrc.ec.europa.eu/DGT-TM.html">DGT-TM</a></span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#17375E;mso-style-textfill-fill-color:#17375E;mso-style-textfill-fill-alpha:100.0%'>, DGT-TM is based exclusively on the L-Series of the Official Journal, while DGT-Acquis also contains the LM, C, CA and CE collections. <o:p></o:p></span></p><p><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#17375E;mso-style-textfill-fill-color:#17375E;mso-style-textfill-fill-alpha:100.0%'><o:p> </o:p></span></p><p><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#17375E;mso-style-textfill-fill-color:#17375E;mso-style-textfill-fill-alpha:100.0%'>The processing steps (data preparation and alignment) to produce the various data sets were entirely different. The format is not the same, and the processing quality of each of the resources is expected to be different, as well. </span><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#002060'>For details on the resources and on the overlap between them, see the detailed descriptions of the resources at <a href="http://ipsc.jrc.ec.europa.eu/index.php?id=61">http://ipsc.jrc.ec.europa.eu/index.php?id=61</a>. <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><u><span style='color:#002060'>MOTIVATION FOR THIS RELEASE<o:p></o:p></span></u></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'>The public data release is in line with the general effort of the European Commission to support multilingualism, language diversity and the re-use of Commission information. It follows the release of the <b><a href="langtech.jrc.ec.europa.eu/JRC-Acquis.html">JRC-Acquis</a></b> parallel corpus in 2006 (over 1 billion words in 22 languages), of the <b><a href="langtech.jrc.ec.europa.eu/DGT-TM.html">DGT-TM</a></b> Translation Memory since 2007, the multilingual named entity resource <b><a href="langtech.jrc.ec.europa.eu/JRC-Names.html">JRC-Names</a></b> in 2011, the multilingual multi-label classification tool (and accompanying text data) <b><a href="langtech.jrc.ec.europa.eu/Eurovoc.html">JRC EuroVoc Indexer (JEX)</a></b> (22 languages), and further smaller multilingual resources. See </span><span style='color:gray'><a href="http://ipsc.jrc.ec.europa.eu/index.php?id=61">http://ipsc.jrc.ec.europa.eu/index.php?id=61</a> </span><span style='color:#002060'>for more information on these resources.<o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><u><span style='color:#002060'>WHAT DGT-ACQUIS CAN BE USED FOR<o:p></o:p></span></u></p><p class=MsoNormal><span style='color:#002060'>                <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'>DGT-ACQUIS is a large parallel corpus in electronic form. It can be used by specialists in computational linguistics to train statistical machine translation software, to generate multilingual dictionaries, to train and test multilingual information extraction software, to carry out testing and training of summarisation or discourse analysis software, to train and test cross-lingual clustering and classification, and more. Parallel corpora are also particularly useful for <a href="http://publications.jrc.ec.europa.eu/repository/handle/111111111/1/simple-search?query=%28%28author%3ASteinberger%29+AND+%28title%3AAnnotation+title%3AParallel%29%29&from_advanced=true&conjunction3=AND&field4=type&conjunction2=AND&field3=ANY&field2=title&conjunction1=AND&query4=&field1=author&query1=Steinberger&query2=Annotation+Parallel&query3=&num_search_field=4">annotation projection across languages</a>, which saves annotation effort and thus facilitates the development of highly multilingual text processing software.<o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><u><span style='color:#002060'>MORE INFORMATION ON DGT-ACQUIS <o:p></o:p></span></u></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'>At <a href="http://langtech.jrc.ec.europa.eu/JRC_Publications.html">http://langtech.jrc.ec.europa.eu/JRC_Publications.html</a> , you find detailed publications on the JRC’s multilingual language technology activity. For details on DGT-Acquis, however, there is not currently yet any detailed publication. Until further notice, please make reference to it by pointing to the web page <a href="http://langtech.jrc.ec.europa.eu/DGT-Acquis.html">http://langtech.jrc.ec.europa.eu/DGT-Acquis.html</a>. <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><u><span style='color:#002060'>WHAT NEXT?<o:p></o:p></span></u></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'>The JRC and collaborating European Union services are currently finalising the release of further highly multilingual linguistic resources. <o:p></o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#002060'><o:p> </o:p></span></p><p class=MsoNormal><b><span style='font-size:9.0pt;color:gray'><a href="http://langtech.jrc.ec.europa.eu/RS.html">Ralf Steinberger</a> <br></span></b><span style='font-size:9.0pt;color:gray'>European Commission - Joint Research Centre (JRC) <br>21027 Ispra (VA), Italy<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:9.0pt;color:gray'>URL – Applications: </span><span class=MsoHyperlink><a href="http://emm.newsbrief.eu/overview.html"><span style='font-size:9.0pt'>http://emm.newsbrief.eu/overview.html</span></a>  <o:p></o:p></span></p><p class=MsoNormal><span style='font-size:9.0pt;color:gray'>URL – Resources: <a href="http://ipsc.jrc.ec.europa.eu/index.php?id=61">http://ipsc.jrc.ec.europa.eu/index.php?id=61</a>  <o:p></o:p></span></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>