Thank you,<br><br>I'll take a look at that.<br><br><div class="gmail_quote">2012/8/6 Joerg Tiedemann <span dir="ltr"><<a href="mailto:jorg.tiedemann@lingfil.uu.se" target="_blank">jorg.tiedemann@lingfil.uu.se</a>></span><br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Maybe translated movie subtitles would fit your needs:<br>
<a href="http://opus.lingfil.uu.se/OpenSubtitles_v2.php" target="_blank">http://opus.lingfil.uu.se/OpenSubtitles_v2.php</a><br>
There is plenty of dialogues, swear words, abbreviations and even<br>
spelling mistakes (but mostly coming from OCR) in the data collection.<br>
<br>
Jörg<br>
<div><div class="h5"><br>
<br>
On Mon, Aug 6, 2012 at 11:58 AM, Alex Juan <<a href="mailto:alhelsal@posgrado.upv.es">alhelsal@posgrado.upv.es</a>> wrote:<br>
> Dear all,<br>
><br>
> I am looking for bilingual/multilingual corpora that could be classified as<br>
> UGC, that is, user-generated content. This ranges from (but may not be<br>
> limited to) chat conversations, support forum conversations, phone/sms/email<br>
> transcripts, etc.<br>
><br>
> As you know, the language here is not always "standard", and this content<br>
> may be rich not only in abbreviations but also contain spelling mistakes,<br>
> and even figurative language and swearwords. If there are also collections<br>
> or repositories of keywords (aka "seed" words) used in similar studies, that<br>
> would also be of help. In the first instance, the languages of interest are<br>
> German and English, with the items of the corpora or repositories aligned<br>
> with one another.<br>
><br>
> I am attempting to build an MT prototype of DE<>EN for the gaming domain.<br>
><br>
> Does anyone know of such a corpus? Any information/orientation will be<br>
> appreciated (even if it comes from specialists from other HLT fields, such<br>
> as sentiment analysis or semantic web).<br>
><br>
> Thanks.<br>
><br>
> --<br>
> Alex Juan<br>
><br>
</div></div>> _______________________________________________<br>
> UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
> Corpora mailing list<br>
> <a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
><br>
<span class="HOEnZb"><font color="#888888"><br>
<br>
<br>
--<br>
**********************************************************************************<br>
 Jörg Tiedemann                                   <a href="mailto:jorg.tiedemann@lingfil.uu.se">jorg.tiedemann@lingfil.uu.se</a><br>
 Dep. of Linguistics and Philology           <a href="http://stp.lingfil.uu.se/%7Ejoerg/" target="_blank">http://stp.lingfil.uu.se/~joerg/</a><br>
 Uppsala University                                  tel:  <a href="tel:%2B46%20%280%2918%20-%20471%201412" value="+46184711412">+46 (0)18 - 471 1412</a><br>
 Box 635, SE-751 26 Uppsala/SWEDEN    fax: <a href="tel:%2B46%20%280%2918%20-%20471%201094" value="+46184711094">+46 (0)18 - 471 1094</a><br>
</font></span></blockquote></div><br><br clear="all"><br>-- <br>Alex Helle<br><br>