<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=iso-8859-1"><meta name=Generator content="Microsoft Word 14 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:"Times New Roman \, serif \;";}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";
        mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EstiloCorreo17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";
        mso-fareast-language:EN-US;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:70.85pt 3.0cm 70.85pt 3.0cm;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=ES link=blue vlink=purple><div class=WordSection1><p class=MsoNormal><span lang=EN-US>[apologies for multiple postings]<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>=====================================================================================<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>TWEET-NORM 2013<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Tweet Normalization Workshop at SEPLN 2013<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Madrid, Spain<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>15-20 September, 2013<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><a href="http://komunitatea.elhuyar.org/tweet-norm/"><span style='color:blue'>http://komunitatea.elhuyar.org/tweet-norm/</span></a><o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>=====================================================================================<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Call for papers<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>=====================================================================================<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>TWEET-NORM 2013, that will be held in the 29th edition of the Annual Conference <o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>of the Spanish Society for Natural Language Processing (SEPLN2013) in Madrid (Spain), invites researchers to submit articles<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>or unpublished recent studies relating to systems, methods and algorithms for lexical normalization <o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>of tweets in Spanish and, specially, to participate in the proposed shared task.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>Introduction<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>------------<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>One of the most important challenges facing us today is how to process and analyze the large amount<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>of information on the Internet, and especially social networking sites like Twitter, where millions of people<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>daily express ideas and opinions on any topic of interest. These texts, called tweets, are<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>characterized by having a short length (140 characters) that is too small compared with the size of traditional genres.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Consequently, users of these networks have developed a new form of expression that<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>includes SMS-style abbreviations, lexical variants, letters repetitions, use of emoticons, etc.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>The result is that current NLP tools can have problems to process and understand these short and noisy texts unless they are normalized first.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>The TWEET-NORM lexical normalization task proposes the automatic "cleansing" of a set amount of<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>tweets by identifying and normalizing, abbreviations, words with repeated letters, and generally<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>any out of the vocabulary (OOV) words, regardless of syntactic or stylistic variants.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>While there has been some progress in this field for English tweets there are very few<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>studies and resources available to date for Spanish. Thus, the aim of<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>the workshop is to provide a forum for discussion and communication where researchers can<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>test approaches, algorithms and resources in order to promote the application of techniques and algorithms <o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>in this area. To do this, a shared task in which the participants will have to normalize a set of tweets, is proposed.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>An annotated corpus will be provided to the participants in order to develop and test the proposed solutions.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>Corpus<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>------<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>The corpus is composed by tweets gathered between the 1st and 2nd of April 2013 covering the geographic area of the Iberian peninsula, <o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>but ignoring those regions that have co-official languages. A large portion of these messages contain serious normalization problems.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>From this initial corpus two subsets are generated: a development set consisting of 500 tweets, and a test set consisting of 2000 tweets.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Corpus will be available in the web page of the workshop at <a href="http://komunitatea.elhuyar.org/tweet-norm/resources/"><span style='color:blue'>http://komunitatea.elhuyar.org/tweet-norm/resources/</span></a><o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>Registration<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>------------<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>Participants are required to register for the task in order to obtain de corpus by sending an email before May 31 to <a href="mailto:tweet-norm@elhuyar.com"><span style='color:blue'>tweet-norm@elhuyar.com</span></a><o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>Submitting articles<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>------------------------<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>Submitted papers will have a maximum length of 4 pages, should follow the<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>format established by the SEPLN (<a href="http://nil.fdi.ucm.es/sepln2013/callen.html"><span style='color:blue'>http://nil.fdi.ucm.es/sepln2013/callen.html</span></a>) and will be sent by web.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>Important Dates<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>---------------------------<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>May 30: Registration deadline for participants and publication of the development set.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>July 5: Publication of the test set.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>July 15: Result submission deadline.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>July 25: Publication of results.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>July 31: Article submission deadline.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><span lang=EN-US>September 15: Workshop at SEPLN 2013 in Madrid.<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p> </o:p></span></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><span style='font-size:12.0pt;mso-fareast-language:ES'>-----------------------------------------------------------------</span><span style='font-size:12.0pt;font-family:"Times New Roman \, serif \;";mso-fareast-language:ES'><br></span><span style='font-size:12.0pt;mso-fareast-language:ES'>L. Alfonso Ureña López</span><span style='mso-fareast-language:ES'><o:p></o:p></span></p><p class=MsoNormal><span style='font-size:12.0pt;mso-fareast-language:ES'>Departamento de Informática<br>Escuela Politécnica Superior (A3-129)<br>Universidad de Jaén</span><span style='mso-fareast-language:ES'><o:p></o:p></span></p><p class=MsoNormal><span style='font-size:12.0pt;mso-fareast-language:ES'>Campus Las Lagunillas. Phone: +34 953 21 28 95<br>23071 - Jaén- Spain        Fax:     +34 953 21 24 72</span><span style='mso-fareast-language:ES'><o:p></o:p></span></p><p class=MsoNormal><span style='font-size:12.0pt;mso-fareast-language:ES'><a href="http://wwwdi.ujaen.es/~laurena"><span style='color:blue'>http://wwwdi.ujaen.es/~laurena</span></a><br>SEPLN (<a href="http://www.sepln.org"><span style='color:blue'>http://www.sepln.org</span></a>)<br>-----------------------------------------------------------------</span><span style='mso-fareast-language:ES'><o:p></o:p></span></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>