<html><body><div style="color:#000; background-color:#fff; font-family:times new roman, new york, times, serif;font-size:12pt"><div><span></span></div><div style="font-family: times new roman, new york, times, serif; font-size: 12pt;"><div style="font-family: times new roman, new york, times, serif; font-size: 12pt;"><div id="yiv35156654"><div><div style="color:#000;background-color:#fff;font-family:times new roman, new york, times, serif;font-size:12pt;"><div><span>Hi everyone,</span></div><div style="color:rgb(0, 0, 0);font-size:16px;font-family:times new roman, new york, times, serif;background-color:transparent;font-style:normal;"><br><span></span></div><div style="color:rgb(0, 0, 0);font-size:16px;font-family:times new roman, new york, times, serif;background-color:transparent;font-style:normal;"><span>out of curiosity, I would like to know the DGT-TM relates to the Europarl corpus (available through UEdinburgh). I had a look at the 2004 data, and
 it appears that the fragments here are often entire sentences, or even two or three sentences (probably as in one of the other languages it's just one sentence). So that would be like Europarl. But for Europarl, I know that a sentence aligner was used. So what's the difference?</span></div><div style="color:rgb(0, 0,
 0);font-size:16px;font-family:times new roman, new york, times, serif;background-color:transparent;font-style:normal;"><br><span></span></div><div style="color:rgb(0, 0, 0);font-size:16px;font-family:times new roman, new york, times, serif;background-color:transparent;font-style:normal;"><span>Can anyone help?</span></div><div style="color:rgb(0, 0, 0);font-size:16px;font-family:times new roman, new york, times, serif;background-color:transparent;font-style:normal;"><br><span></span></div><div style="color:rgb(0, 0, 0);font-size:16px;font-family:times new roman, new york, times, serif;background-color:transparent;font-style:normal;"><span>Thanks!</span></div><div style="color:rgb(0, 0, 0);font-size:16px;font-family:times new roman, new york, times, serif;background-color:transparent;font-style:normal;"><span>  Thomas</span></div><div><span></span></div><div><br></div>  <div style="font-family:times new roman, new york, times,
 serif;font-size:12pt;"> <div style="font-family:times new roman, new york, times, serif;font-size:12pt;"> <div dir="ltr"> <font face="Arial" size="2"> <hr size="1">  <b><span style="font-weight:bold;">Von:</span></b> Ralf Steinberger <ralf.steinberger@jrc.ec.europa.eu><br> <b><span style="font-weight:bold;">An:</span></b> corpora@uib.no; ln@cines.fr; clef@dei.unipd.it; elsnet-list@elsnet.org; mt-list@eamt.org <br> <b><span style="font-weight:bold;">Gesendet:</span></b> 17:04 Montag, 5.November 2012<br> <b><span style="font-weight:bold;">Betreff:</span></b> [Corpora-List] New release of DGT-TM (parallel corpus in 23 languages)<br> </font> </div> <br><div id="yiv35156654"><base><style><!--
#yiv35156654   
 filtered  {font-family:Wingdings;panose-1:5 0 0 0 0 0 0 0 0 0;}
#yiv35156654 filtered  {font-family:Wingdings;panose-1:5 0 0 0 0 0 0 0 0 0;}
#yiv35156654 filtered  {font-family:Calibri;panose-1:2 15 5 2 2 2 4 3 2 4;}
#yiv35156654 filtered  {font-family:Verdana;panose-1:2 11 6 4 3 5 4 4 2 4;}
#yiv35156654   
 p.yiv35156654MsoNormal, #yiv35156654  li.yiv35156654MsoNormal, #yiv35156654  div.yiv35156654MsoNormal
        {margin:0cm;margin-bottom:.0001pt;font-size:11.0pt;font-family:"Calibri", "sans-serif";}
#yiv35156654  a:link, #yiv35156654  span.yiv35156654MsoHyperlink
        {color:blue;text-decoration:underline;}
#yiv35156654  a:visited, #yiv35156654  span.yiv35156654MsoHyperlinkFollowed
        {color:purple;text-decoration:underline;}
#yiv35156654  p
        {margin:0cm;margin-bottom:.0001pt;font-size:12.0pt;font-family:"Times New Roman", "serif";}
#yiv35156654  p.yiv35156654MsoListParagraph, #yiv35156654  li.yiv35156654MsoListParagraph, #yiv35156654  div.yiv35156654MsoListParagraph
        {margin-top:0cm;margin-right:0cm;margin-bottom:0cm;margin-left:36.0pt;margin-bottom:.0001pt;font-size:11.0pt;font-family:"Calibri", "sans-serif";}
#yiv35156654  span.yiv35156654EmailStyle19
        {font-family:"Calibri", "sans-serif";color:windowtext;}
#yiv35156654  .yiv35156654MsoChpDefault
        {font-size:10.0pt;font-family:"Calibri", "sans-serif";}
#yiv35156654 filtered  {margin:72.0pt 72.0pt 72.0pt 72.0pt;}
#yiv35156654  div.yiv35156654WordSection1
        {}
#yiv35156654   
 filtered  {}
#yiv35156654 filtered  {font-family:Symbol;}
#yiv35156654 filtered  {font-family:"Courier New";}
#yiv35156654 filtered  {font-family:Wingdings;}
#yiv35156654 filtered  {font-family:Symbol;}
#yiv35156654 filtered  {font-family:"Courier New";}
#yiv35156654 filtered  {font-family:Wingdings;}
#yiv35156654 filtered  {font-family:Symbol;}
#yiv35156654 filtered  {font-family:"Courier New";}
#yiv35156654 filtered  {font-family:Wingdings;}
#yiv35156654  ol
        {margin-bottom:0cm;}
#yiv35156654  ul
        {margin-bottom:0cm;}
--></style><div><div class="yiv35156654WordSection1"><div class="yiv35156654MsoNormal"><span style="color:#002060;">DGT-TM is an extraction of the translation memory of the European Institutions for all official EU languages, produced by the European Commission’s <i style="">Directorate General for Translation</i> (DGT) and distributed by the <i style="">Joint Research Centre</i> (JRC). Translation memories are sentences and their manually produced translations.</span></div><div class="yiv35156654MsoNormal">  </div><div class="yiv35156654MsoNormal"><span style="color:#002060;">The new release is called DGT-TM-2012. It follows the previous releases, DGT-TM (2007) and DGT-TM-2011. DGT-TM-2012 adds over six million translation units to the previous 57 million translation units, resulting in almost <b style="">3.3 million sentences for most languages, 63 million translation units in total</b>. </span></div><div class="yiv35156654MsoNormal"><span
 style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">New features of DGT-TM-2012 are:</span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoListParagraph" style=""><span style="font-family:Symbol;color:#002060;"><span style="">·<span style="font:7.0pt;">         </span></span></span><span style="color:#002060;">Small amounts of Irish data is now included for the first time;</span></div><div class="yiv35156654MsoListParagraph" style=""><span style="font-family:Symbol;color:#002060;"><span style="">·<span style="font:7.0pt;">         </span></span></span><span style="color:#002060;">Significantly more data for the Bulgarian, Maltese and Romanian
 languages;</span></div><div class="yiv35156654MsoListParagraph" style=""><span style="font-family:Symbol;color:#002060;"><span style="">·<span style="font:7.0pt;">         </span></span></span><span style="color:#002060;">Mostly about 285K new translation units per language.</span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><b style=""><span style="color:#002060;">Languages:</span></b><span style="color:#002060;"><span style="">  </span>All 253 language pairs involving the following 23 languages: </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;"><span style="">                </span>Bulgarian, Czech, Danish,
 Dutch, English, Estonian, German, </span></div><div class="yiv35156654MsoNormal" style="text-indent:36.0pt;"><span style="color:#002060;">Greek, Finnish, French, Irish, Hungarian, Italian, Latvian, </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;"><span style=""> </span><span style="">               </span>Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;"><span style="">                </span>Slovene, Spanish and Swedish.</span></div><div class="yiv35156654MsoNormal"><span style="font-size:10.0pt;color:#632523;"><span style="">            </span></span></div><div class="yiv35156654MsoNormal"><b style=""><span
 style="font-size:10.0pt;color:#632523;">URL:<span style="">        </span></span></b><span style="font-size:10.0pt;color:#632523;"><a rel="nofollow" target="_blank" href="http://langtech.jrc.ec.europa.eu/DGT-TM.html"><span style="color:#00007F;">http://langtech.jrc.ec.europa.eu/DGT-TM.html</span></a></span></div><div class="yiv35156654MsoNormal"><b style=""><span style="font-size:10.0pt;color:#632523;">Creator: <span style="">   </span></span></b><span style="font-size:10.0pt;color:#632523;">European Commission - Directorate General for Translation (<a rel="nofollow" target="_blank" href="http://ec.europa.eu/dgs/translation/index_en.htm"><span style="color:#00007F;">DGT</span></a>)</span></div><div class="yiv35156654MsoNormal"><span style="font-size:10.0pt;color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div
 class="yiv35156654MsoNormal"><u><span style="color:#002060;">WHAT IS DGT-TM</span></u></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">The ‘<a rel="nofollow" target="_blank" href="http://europa.eu/abc/eurojargon/index_en.htm"><span style="color:#002060;text-decoration:none;">Acquis Communautaire</span></a>’ is the entire body of European legislation, comprising all the treaties, regulations and directives adopted by the European Union (EU). Since each new country joining the EU is required to accept the whole Acquis Communautaire, this body of legislation has been translated into 22 official languages. </span><span style="font-size:10.0pt;color:#000066;">For the 23<sup>rd</sup> official EU language, <b><span class="yiv35156654yui_3_7_2_16_1352366331473_174" style="font-weight:normal;">Irish</span></b>, the Acquis has not been translated on a
 regular basis; which is why DGT-TM includes only little data in Irish. The Acquis Communautaire was split into sentences and aligned automatically at sentence level, resulting in the DGT translation memory, DGT-TM. The text data is accompanied by software that allows to extract all sentences and their translations for any of the 253 possible language pair combinations. </span></div><div class="yiv35156654MsoNormal"><span style="font-size:10.0pt;color:#000066;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><u><span style="color:#002060;">MOTIVATION FOR THIS RELEASE</span></u></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">The public data release is in line with the general effort of the European Commission to support multilingualism, language diversity and the
 re-use of Commission information. It follows the release of the <b>JRC-Acquis</b> parallel corpus in 2006 (over 1 billion words in 22 languages), of the <b>DGT-TM</b> Translation Memory in 2007, the multilingual named entity resource <b style="">JRC-Names</b> in 2011, the multilingual multi-label classification tool (and accompanying text data) <b style="">JRC EuroVoc Indexer (JEX)</b> (22 languages), and further smaller multilingual resources. See <a rel="nofollow" target="_blank" href="http://langtech.jrc.ec.europa.eu/JRC_Resources.html">http://langtech.jrc.ec.europa.eu/JRC_Resources.html</a> for more information on these resources.</span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><u><span style="color:#002060;">WHAT DGT-TM CAN BE USED FOR</span></u></div><div
 class="yiv35156654MsoNormal"><span style="color:#002060;"><span style="">                </span></span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">DGT-TM can be fed into translation memory software to support human translators in their work. As it is a large parallel corpus in electronic form, it can furthermore be used by specialists in computational linguistics to train statistical machine translation
 software, to generate multilingual dictionaries, to train and test multilingual information extraction software, and more.</span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><u><span style="color:#002060;">MORE INFORMATION ON DGT-TM </span></u></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">At <a rel="nofollow" target="_blank" href="http://langtech.jrc.ec.europa.eu/JRC_Publications.html">http://langtech.jrc.ec.europa.eu/JRC_Publications.html</a> , you find detailed publications on the JRC’s multilingual language technology activity. For details on DGT-TM, you can read:</span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div><span
 style="font-size:10.0pt;color:#000066;"><span style="">      </span>Steinberger Ralf, Andreas Eisele, Szymon Klocek, Spyridon Pilos </span></div><div><span style="font-size:10.0pt;color:#000066;"><span style=""> </span><span style="">     </span>& Patrick Schlüter (2012). </span></div><div><span style="font-size:10.0pt;color:#000066;"><span style=""> </span><span style="">     </span><a rel="nofollow" target="_blank" href="http://langtech.jrc.ec.europa.eu/Documents/2012_LREC_DGT-TM_Final.pdf" title="Reference publication for the DGT-Translation Memory DGT-TM"><b><span style="color:#3399CC;text-decoration:none;">DGT-TM: A freely Available Translation Memory in 22 Languages</span></b></a>. </span></div><div><span style="font-size:10.0pt;
color:#000066;"><span style=""> </span><span style="">     </span>Proceedings of the 8<sup>th</sup> international conference on Language </span></div><div><span style="font-size:10.0pt;color:#000066;"><span style=""> </span><span style="">     </span>Resources and Evaluation (LREC'2012), Istanbul, 21-27 May 2012. </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;"><span style=""> </span></span><span style="font-size:9.0pt;color:#002060;"><span style="">               </span></span><span style="font-size:9.0pt;color:#632523;"><a rel="nofollow" target="_blank" href="http://langtech.jrc.ec.europa.eu/Documents/2012_LREC_DGT-TM_Final.pdf"><span style="color:#00007F;">http://langtech.jrc.ec.europa.eu/Documents/2012_LREC_DGT-TM_Final.pdf</span></a></span></div><div class="yiv35156654MsoNormal"><span
 style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><u><span style="color:#002060;">WHAT NEXT?</span></u></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">The JRC and collaborating services of the European Commission are currently finalising the release of further large-scale linguistic resources. </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><span style="color:#002060;">  </span></div><div class="yiv35156654MsoNormal"><b><span style="font-size:9.0pt;color:gray;"><a rel="nofollow" target="_blank" href="http://langtech.jrc.ec.europa.eu/RS.html">Ralf Steinberger </a><span style=""> </span><br></span></b><span style="font-size:9.0pt;color:gray;">European
 Commission - Joint Research Centre (JRC)<br>21027 Ispra (VA), Italy</span></div><div class="yiv35156654MsoNormal"><span style="font-size:9.0pt;color:gray;">URL – Applications: <a rel="nofollow" target="_blank" href="http://emm.newsbrief.eu/overview.html"><span style="color:gray;">http://emm.newsbrief.eu/overview.html</span></a> </span></div><div class="yiv35156654MsoNormal"><span style="font-size:9.0pt;color:gray;">URL – Resources: <a rel="nofollow" target="_blank" href="http://ipsc.jrc.ec.europa.eu/index.php?id=61">http://ipsc.jrc.ec.europa.eu/index.php?id=61</a><span style="">  </span></span></div><div class="yiv35156654MsoNormal">  </div></div></div></div>
<br>_______________________________________________<br>UNSUBSCRIBE from this page: <a rel="nofollow" target="_blank" href="http://mailman.uib.no/options/corpora">http://mailman.uib.no/options/corpora</a><br>Corpora mailing list<br><a rel="nofollow" ymailto="mailto:Corpora@uib.no" target="_blank" href="mailto:Corpora@uib.no">Corpora@uib.no</a><br><a rel="nofollow" target="_blank" href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a><br><br><br> </div> </div>  </div></div></div><meta http-equiv="x-dns-prefetch-control" content="on"><br><br> </div> </div>  </div></body></html>