<div dir="ltr">Dear liling<div><br></div><div>There are many extensions and apps that you can use to download YouTube videos easily, such as Downloadhelper for Firefox or YouTube Downloader. For Downloadhelper and others you can also use queues to add new videos to download. YouTube also creates automatic playlists which is definitely helpful.<br>

<div class="gmail_extra"><br></div><div class="gmail_extra">As Laura Christopherson has pointed out, protecting identities may be an issue. WoW users may choose to make use of the Real ID system where they chat with friends on the same game network even including not those playing WoW (B<a href="http://battle.net" target="_blank">attle.net</a>), eg. Starcraft 2 (I think). As far as I remember that means that their real names instead of their character names are displayed. It is probably a good idea to shoot Blizzard an email to ask them what you are legally allowed to do in terms of using game content for research. As gameplay videos, which are public, are allowed to be published on YouTube, I don't expect there to be major problems. You may even decide not to limit yourself to WoW chats but include more games within the Battle.net network.</div>

<div class="gmail_extra"><br></div><div class="gmail_extra">Good luck with this very interesting project!</div><div class="gmail_extra"><br></div><div class="gmail_extra"><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">Gideon Kotzé</span><br style="font-family:arial,sans-serif;font-size:12.727272033691406px">

<a href="mailto:gidi8ster@gmail.com" style="font-family:arial,sans-serif;font-size:12.727272033691406px" target="_blank">gidi8ster@gmail.com</a><br style="font-family:arial,sans-serif;font-size:12.727272033691406px"><a href="http://www.gideonkotze.nl/" style="font-family:arial,sans-serif;font-size:12.727272033691406px" target="_blank">www.gideonkotze.nl</a></div>

<div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Sep 10, 2013 at 12:00 PM,  <span dir="ltr"><<a href="mailto:corpora-request@uib.no" target="_blank">corpora-request@uib.no</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">

Send Corpora mailing list submissions to<br>
        <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
        <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
or, via email, send a message with subject or body 'help' to<br>
        <a href="mailto:corpora-request@uib.no" target="_blank">corpora-request@uib.no</a><br>
<br>
You can reach the person managing the list at<br>
        <a href="mailto:corpora-owner@uib.no" target="_blank">corpora-owner@uib.no</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than "Re: Contents of Corpora digest..."<br>
<br>Today's Topics:<br>
<br>
   1. Re:  Corpora Digest, Vol 75, Issue 9 (Laura Christopherson)<br>
   2.  A dependency parser for Arabic (Jack Alan)<br>
   3. Re:  A dependency parser for Arabic (Kevin Gimpel)<br>
   4.  Fwd: [clcs-sdl-chercheurs] colloque international<br>
      Interactions Multimodales Par Ecran (IMPEC 2014) (Angus Grieve-Smith)<br>
   5. Re:  A dependency parser for Arabic (Yuval Marton)<br>
   6. Re:  A dependency parser for Arabic (Yuval Marton)<br>
   7.  Call for Participation: SPMRL 2013 - EMNLP-Workshop      on<br>
      Statistical       Parsing of Morphologically Rich Languages<br>
      (<a href="mailto:irehbein@uni-potsdam.de" target="_blank">irehbein@uni-potsdam.de</a>)<br>
   8. Re:  World of Warcraft Corpus (Ivan Kri?to)<br>
<br><br>---------- Forwarded message ----------<br>From: Laura Christopherson <<a href="mailto:llchrist@email.unc.edu" target="_blank">llchrist@email.unc.edu</a>><br>To: <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>
Cc: <br>
Date: Mon, 09 Sep 2013 09:08:12 -0400<br>Subject: Re: [Corpora-List] Corpora Digest, Vol 75, Issue 9<br>Hi All and liling,<br>
<br>
I'm happy to talk with you about WoW corpus creation off list. Just email me back.<br>
<br>
A few things to note:<br>
- Bots are disallowed, and if you use one you can be banned from WoW.<br>
- Richer WoW chat is a matter of having toons (avatars) at all experience levels who can travel to multiple zones/cities and engage in multiple types of activities (and thus communicate a variety of chat channels). And if you can get chat from multiple servers and both factions, great.<br>


- Some IRB committees may feel uncomfortable with this because you do have to have a userid/password to get into WoW. So you will need to ensure you are taking extra precautions to protect identities. I can tell you more about what I put in my IRB which was exempted.<br>


- I'm happy to send you my dissertation which includes details on how the corpus was collected. My corpus included non-WoW-chat texts, so you can just ignore all the parts that don't pertain to WoW chat collection.<br>


<br>
Thanks,<br>
Laura Christopherson<br>
<br>
On 9/9/13 6:00 AM, <a href="mailto:corpora-request@uib.no" target="_blank">corpora-request@uib.no</a> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
Message: 5<br>
Date: Mon, 9 Sep 2013 07:46:51 +0200<br>
From: liling tan<<a href="mailto:alvations@gmail.com" target="_blank">alvations@gmail.com</a>><br>
Subject: [Corpora-List] World of Warcraft Corpus<br>
<a href="mailto:To%3Acorpora@uib.no" target="_blank">To:corpora@uib.no</a><br>
<br>
Dear all,<br>
<br>
Does anyone know of any compilation of World of Warcraft (WoW) chat corpus?<br>
<br>
Any suggestions/advice on how to collect a WoW chat corpus?<br>
<br>
Best Regards,<br>
liling<br>
-------------- next part --------------<br>
A non-text attachment was scrubbed...<br>
Name: not available<br>
Type: text/html<br>
Size: 274 bytes<br>
Desc: not available<br>
URL:<<a href="http://www.uib.no/mailman/public/corpora/attachments/20130909/d0aaa22b/attachment.txt" target="_blank">http://www.uib.no/<u></u>mailman/public/corpora/<u></u>attachments/20130909/d0aaa22b/<u></u>attachment.txt</a>><br>


<br>
------------------------------<br>
<br>
Message: 6<br>
Date: Mon, 9 Sep 2013 08:12:39 +0200<br>
From: Daniel Stein<<a href="mailto:danielstein81@gmail.com" target="_blank">danielstein81@gmail.com</a>><br>
Subject: Re: [Corpora-List] World of Warcraft Corpus<br>
To: liling tan<<a href="mailto:alvations@gmail.com" target="_blank">alvations@gmail.com</a>>,"<a href="mailto:corpora@uib.no" target="_blank">corp<u></u>ora@uib.no</a>"<br>
        <<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a>><br>
<br>
Dear liling,<br>
<br>
may be this is interesting for you:<br>
<br>
Laura Christopherson: What are people really saying in World of Warcraft<br>
Chat? (<a href="http://dl.acm.org/citation.cfm?id=1920331.1920490" target="_blank">http://dl.acm.org/citation.<u></u>cfm?id=1920331.1920490</a>)<br>
<br>
Kind Regards<br>
Daniel<br>
</blockquote>
<br>
<br>
<br>
<br><br>---------- Forwarded message ----------<br>From: Jack Alan <<a href="mailto:j.o.alan2012@gmail.com" target="_blank">j.o.alan2012@gmail.com</a>><br>To: <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>
Cc: <br>Date: Mon, 9 Sep 2013 22:12:19 +0100<br>
Subject: [Corpora-List] A dependency parser for Arabic<br><div dir="ltr">Hi eveyone,<div><br></div><div>I wonder if someone came a cross a dependency parser for Arabic. I've no access to any resources provided by LDC, so I'm looking for something **opensource**, i.e. free.</div>


<div><br></div><div>By the way, I'm using AMIRA[1] to perform tokenization. So, I want to feed the tokenized text into the dependency parser to do the job.</div><div><br></div><div>Could anyone pinpoint me to the proper tool to use, if any?</div>


<div><br></div><div>Jack</div><div><br></div><div><br></div><div>Ref:</div><div>[1] <span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">Diab, Mona. "Second generation AMIRA tools for Arabic processing: Fast and robust tokenization, POS tagging, and base phrase chunking." </span><i style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">2nd International Conference on Arabic Language Resources and Tools</i><span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">. 2009.</span></div>


<div><span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px"><br></span></div></div>
<br><br>---------- Forwarded message ----------<br>From: Kevin Gimpel <<a href="mailto:kgimpel@cs.cmu.edu" target="_blank">kgimpel@cs.cmu.edu</a>><br>To: Jack Alan <<a href="mailto:j.o.alan2012@gmail.com" target="_blank">j.o.alan2012@gmail.com</a>><br>

Cc: <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>Date: Mon, 9 Sep 2013 18:23:06 -0500<br>Subject: Re: [Corpora-List] A dependency parser for Arabic<br><div dir="ltr">Hi Jack,<div>TurboParser (<a href="http://www.ark.cs.cmu.edu/TurboParser/" target="_blank">http://www.ark.cs.cmu.edu/TurboParser/</a>) includes a pretrained model for Arabic. (Not sure how the AMIRA tokenization differs from the tokenization of the CoNLL-X data used to train this model, but others might know.)</div>




<div>The Stanford parser (<a href="http://nlp.stanford.edu/software/lex-parser.shtml" target="_blank">http://nlp.stanford.edu/software/lex-parser.shtml</a>) also has an Arabic model. You can get dependencies from the phrase structure parses, though not typed dependencies (<a href="http://nlp.stanford.edu/software/parser-arabic-faq.shtml#j" target="_blank">http://nlp.stanford.edu/software/parser-arabic-faq.shtml#j</a>).</div>




<div>Kevin</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Sep 9, 2013 at 4:12 PM, Jack Alan <span dir="ltr"><<a href="mailto:j.o.alan2012@gmail.com" target="_blank">j.o.alan2012@gmail.com</a>></span> wrote:<br>




<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr">Hi eveyone,<div><br></div><div>I wonder if someone came a cross a dependency parser for Arabic. I've no access to any resources provided by LDC, so I'm looking for something **opensource**, i.e. free.</div>





<div><br></div><div>By the way, I'm using AMIRA[1] to perform tokenization. So, I want to feed the tokenized text into the dependency parser to do the job.</div><div><br></div><div>Could anyone pinpoint me to the proper tool to use, if any?</div>





<div><br></div><div>Jack</div><div><br></div><div><br></div><div>Ref:</div><div>[1] <span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">Diab, Mona. "Second generation AMIRA tools for Arabic processing: Fast and robust tokenization, POS tagging, and base phrase chunking." </span><i style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">2nd International Conference on Arabic Language Resources and Tools</i><span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">. 2009.</span></div>





<div><span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px"><br></span></div></div>
<br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br></div></div>
<br><br>---------- Forwarded message ----------<br>From: Angus Grieve-Smith <<a href="mailto:grvsmth@panix.com" target="_blank">grvsmth@panix.com</a>><br>To: <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>
Cc: <br>Date: Mon, 09 Sep 2013 19:47:22 -0400<br>
Subject: [Corpora-List] Fwd: [clcs-sdl-chercheurs] colloque international Interactions Multimodales Par Ecran (IMPEC 2014)<br>
  

    
  
  <div bgcolor="#FFFFFF" text="#000000">
    <br>
    <div><br>
      <br>
      -------- Original Message --------
      <table border="0" cellpadding="0" cellspacing="0">
        <tbody>
          <tr>
            <th align="RIGHT" nowrap valign="BASELINE">Subject:
            </th>
            <td>[clcs-sdl-chercheurs] colloque international
              Interactions Multimodales Par Ecran (IMPEC 2014)</td>
          </tr>
          <tr>
            <th align="RIGHT" nowrap valign="BASELINE">Date: </th>
            <td>Mon, 9 Sep 2013 16:57:59 +0200</td>
          </tr>
          <tr>
            <th align="RIGHT" nowrap valign="BASELINE">From: </th>
            <td>Samira Ibnelkaïd <a href="mailto:samiraibnelkaid@gmail.com" target="_blank"><samiraibnelkaid@gmail.com></a></td>
          </tr>
        </tbody>
      </table>
      <br>
      <br>
      <div style="font-size:12pt;font-family:Calibri"><span style="font-family:Helvetica;font-size:medium">Cher(e)s collègues,</span></div>
      <div style="font-size:12pt;font-family:Calibri"><span style="font-family:Helvetica;font-size:medium"><br>
        </span></div>
      <div style="font-size:12pt;font-family:Calibri"><span style="font-family:Helvetica;font-size:medium">Vous trouverez sur le site suivant </span><span style="font-family:Helvetica;font-size:medium"><font face="Times New Roman"><a href="http://impec2014.sciencesconf.org/" target="_blank">http://impec2014.sciencesconf.org/</a></font></span><span style="font-family:Helvetica;font-size:medium"> l'appel à communication en français et
          en anglais du premier </span><span style="font-family:Helvetica;font-size:medium"><b>colloque
            international Interactions Multimodales Par Ecran (IMPEC)</b></span><span style="font-family:Helvetica;font-size:medium"> qui se tiendra à Lyon du 2 au 4 juillet
          2014.</span></div>
      <div> </div>
      <div>Merci de bien vouloir le diffuser le plus largement possible
        dans vos réseaux.</div>
      <div> </div>
      <div>Cordialement,</div>
      <div><br>
      </div>
      <div>Pour le comité d'organisation,</div>
      <div>Samira Ibnelkaïd</div>
      <div>Doctorante en Sciences du Langage</div>
      <div>Laboratoire ICAR - Université Lumière Lyon 2</div>
      <div> </div>
      <div>Dear colleagues,</div>
      <div> </div>
      <div>Please find here <font face="Times New Roman"><a href="http://impec2014.sciencesconf.org/" target="_blank">http://impec2014.sciencesconf.org/</a></font> the
        call for submissions in French and in English for the first
        international conference on <b>Multimodal screen-based
          interactions</b> which will be held in Lyon, France, from July
        2 to 4, 2014.<br>
      </div>
      <div> </div>
      <div>Thank you for distributing this information.</div>
      <div><font face="Georgia"><span style="font-size:13px;line-height:15px"><br>
          </span></font><span><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px">
            <div style="word-wrap:break-word"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px">
                <div style="word-wrap:break-word"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px">
                    <div style="word-wrap:break-word"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px">
                        <div style="word-wrap:break-word">
                          <div>
                            <div>On behalf of the organizing committee</div>
                            <div>Samira Ibnelkaïd</div>
                            <div>Doctorante en Sciences du Langage</div>
                            <div>Laboratoire ICAR - Université Lumière
                              Lyon 2</div>
                          </div>
                          <div><br>
                          </div>
                        </div>
                      </span></div>
                  </span></div>
              </span></div>
          </span></span></div>
      <div>
        <span><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px">
            <div style="word-wrap:break-word"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px">
                <div style="word-wrap:break-word"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px">
                    <div style="word-wrap:break-word"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px">
                        <div style="word-wrap:break-word">
                          <div>
                            <div><br>
                            </div>
                          </div>
                        </div>
                      </span></div>
                  </span></div>
              </span></div>
          </span><br>
        </span><br>
      </div>
      <br>
      <br>
      <pre cols="72">-- 
                                -Angus B. Grieve-Smith
                                <a href="mailto:grvsmth@panix.com" target="_blank">grvsmth@panix.com</a>
</pre>
      <br>
    </div>
    <br>
  </div>

<br><br>---------- Forwarded message ----------<br>From: Yuval Marton <<a href="mailto:yuvalmarton@gmail.com" target="_blank">yuvalmarton@gmail.com</a>><br>To: Kevin Gimpel <<a href="mailto:kgimpel@cs.cmu.edu" target="_blank">kgimpel@cs.cmu.edu</a>><br>

Cc: "<a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a>" <<a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a>>, Jack Alan <<a href="mailto:j.o.alan2012@gmail.com" target="_blank">j.o.alan2012@gmail.com</a>><br>
Date: Mon, 9 Sep 2013 17:00:17 -0700<br>
Subject: Re: [Corpora-List] A dependency parser for Arabic<br><div dir="auto"><div>Jack,</div><div><br></div><div>You might want to check out the Columbia CATiB parser (same group who developed Amira)</div><div><br></div>

<div><a href="http://www1.ccls.columbia.edu/~ymarton/#_Teaching" target="_blank">http://www1.ccls.columbia.edu/~ymarton/#_Teaching</a> </div><div>(resources and tools section)</div><div><br>It is one of the best dep parsers for Arabic to date, just evaluated in the EMNLP 2013 SPMRL shared task. </div>

<div><br></div><div>I can provide you with more details if you email me directly. </div><div><br></div><div>-Yuval </div><div><br>--- Pardon typos, sent from my phone --- </div><div><br>On Sep 9, 2013, at 4:23 PM, Kevin Gimpel <<a href="mailto:kgimpel@cs.cmu.edu" target="_blank">kgimpel@cs.cmu.edu</a>> wrote:<br>

<br></div><blockquote type="cite"><div><div dir="ltr">Hi Jack,<div>TurboParser (<a href="http://www.ark.cs.cmu.edu/TurboParser/" target="_blank">http://www.ark.cs.cmu.edu/TurboParser/</a>) includes a pretrained model for Arabic. (Not sure how the AMIRA tokenization differs from the tokenization of the CoNLL-X data used to train this model, but others might know.)</div>




<div>The Stanford parser (<a href="http://nlp.stanford.edu/software/lex-parser.shtml" target="_blank">http://nlp.stanford.edu/software/lex-parser.shtml</a>) also has an Arabic model. You can get dependencies from the phrase structure parses, though not typed dependencies (<a href="http://nlp.stanford.edu/software/parser-arabic-faq.shtml#j" target="_blank">http://nlp.stanford.edu/software/parser-arabic-faq.shtml#j</a>).</div>




<div>Kevin</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Sep 9, 2013 at 4:12 PM, Jack Alan <span dir="ltr"><<a href="mailto:j.o.alan2012@gmail.com" target="_blank">j.o.alan2012@gmail.com</a>></span> wrote:<br>




<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr">Hi eveyone,<div><br></div><div>I wonder if someone came a cross a dependency parser for Arabic. I've no access to any resources provided by LDC, so I'm looking for something **opensource**, i.e. free.</div>





<div><br></div><div>By the way, I'm using AMIRA[1] to perform tokenization. So, I want to feed the tokenized text into the dependency parser to do the job.</div><div><br></div><div>Could anyone pinpoint me to the proper tool to use, if any?</div>





<div><br></div><div>Jack</div><div><br></div><div><br></div><div>Ref:</div><div>[1] <span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">Diab, Mona. "Second generation AMIRA tools for Arabic processing: Fast and robust tokenization, POS tagging, and base phrase chunking." </span><i style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">2nd International Conference on Arabic Language Resources and Tools</i><span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">. 2009.</span></div>





<div><span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px"><br></span></div></div>
<br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br></div></div>
</div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a></span><br>

<span>Corpora mailing list</span><br><span><a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a></span><br><span><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a></span><br>

</div></blockquote></div><br><br>---------- Forwarded message ----------<br>From: Yuval Marton <<a href="mailto:yuvalmarton@gmail.com" target="_blank">yuvalmarton@gmail.com</a>><br>To: Kevin Gimpel <<a href="mailto:kgimpel@cs.cmu.edu" target="_blank">kgimpel@cs.cmu.edu</a>><br>

Cc: Nizar Habash <<a href="mailto:habash@ccls.columbia.edu" target="_blank">habash@ccls.columbia.edu</a>>, "<a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a>" <<a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a>>, Sarah Alkuhlani <<a href="mailto:sma2149@columbia.edu" target="_blank">sma2149@columbia.edu</a>>, Owen Rambow <<a href="mailto:rambow@ccls.columbia.edu" target="_blank">rambow@ccls.columbia.edu</a>>, Jack Alan <<a href="mailto:j.o.alan2012@gmail.com" target="_blank">j.o.alan2012@gmail.com</a>><br>

Date: Mon, 9 Sep 2013 20:16:34 -0700<br>Subject: Re: [Corpora-List] A dependency parser for Arabic<br><div dir="ltr"><div>Hi Jack,<br><br>Just to add to my previous answer:<br><br>Here's the related publication of mine:<br>

Yuval Marton, Nizar Habash and Owen Rambow. “Dependency
Parsing of Modern Standard Arabic with Lexical and Inflectional Features”. Computational
Linguistics, Volume 39, Issue 1. <a href="http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00138" target="_blank">Online
version</a> posted November 13, 2012. <br><a href="http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00138" target="_blank">http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00138</a><br><br></div><div>Follow this link for the EMNLP 2013  SPMRL workshop shared task benchmark (to be published soon) : <br>


<a href="http://www.spmrl.org/spmrl2013.html" target="_blank">http://www.spmrl.org/spmrl2013.html</a><br><br></div><div>Anyone who is interested in trying the parser out, please email me directly (until we update the official page).<br>

</div>
<div>The installation assumes you have MADA (morphological analyzer) and a few other tools installed, but once installed, it provides an end-to-end pipeline from raw text to POS tags and dependency parses.<br></div><div>

<br>
<br></div><div>Best,<br><br></div><div>-Yuval<br><br></div><br><br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Sep 9, 2013 at 5:00 PM, Yuval Marton <span dir="ltr"><<a href="mailto:yuvalmarton@gmail.com" target="_blank">yuvalmarton@gmail.com</a>></span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="auto"><div>Jack,</div><div><br></div><div>You might want to check out the Columbia CATiB parser (same group who developed Amira)</div>


<div><br></div><div><a href="http://www1.ccls.columbia.edu/~ymarton/#_Teaching" target="_blank">http://www1.ccls.columbia.edu/~ymarton/#_Teaching</a> </div><div>(resources and tools section)</div><div><br>It is one of the best dep parsers for Arabic to date, just evaluated in the EMNLP 2013 SPMRL shared task. </div>


<div><br></div><div>I can provide you with more details if you email me directly. </div><div><br></div><div>-Yuval </div><div><br>--- Pardon typos, sent from my phone --- </div><div><div><div><br>On Sep 9, 2013, at 4:23 PM, Kevin Gimpel <<a href="mailto:kgimpel@cs.cmu.edu" target="_blank">kgimpel@cs.cmu.edu</a>> wrote:<br>


<br></div><blockquote type="cite"><div><div dir="ltr">Hi Jack,<div>TurboParser (<a href="http://www.ark.cs.cmu.edu/TurboParser/" target="_blank">http://www.ark.cs.cmu.edu/TurboParser/</a>) includes a pretrained model for Arabic. (Not sure how the AMIRA tokenization differs from the tokenization of the CoNLL-X data used to train this model, but others might know.)</div>





<div>The Stanford parser (<a href="http://nlp.stanford.edu/software/lex-parser.shtml" target="_blank">http://nlp.stanford.edu/software/lex-parser.shtml</a>) also has an Arabic model. You can get dependencies from the phrase structure parses, though not typed dependencies (<a href="http://nlp.stanford.edu/software/parser-arabic-faq.shtml#j" target="_blank">http://nlp.stanford.edu/software/parser-arabic-faq.shtml#j</a>).</div>





<div>Kevin</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Sep 9, 2013 at 4:12 PM, Jack Alan <span dir="ltr"><<a href="mailto:j.o.alan2012@gmail.com" target="_blank">j.o.alan2012@gmail.com</a>></span> wrote:<br>





<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr">Hi eveyone,<div><br></div><div>I wonder if someone came a cross a dependency parser for Arabic. I've no access to any resources provided by LDC, so I'm looking for something **opensource**, i.e. free.</div>






<div><br></div><div>By the way, I'm using AMIRA[1] to perform tokenization. So, I want to feed the tokenized text into the dependency parser to do the job.</div><div><br></div><div>Could anyone pinpoint me to the proper tool to use, if any?</div>






<div><br></div><div>Jack</div><div><br></div><div><br></div><div>Ref:</div><div>[1] <span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">Diab, Mona. "Second generation AMIRA tools for Arabic processing: Fast and robust tokenization, POS tagging, and base phrase chunking." </span><i style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">2nd International Conference on Arabic Language Resources and Tools</i><span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px">. 2009.</span></div>






<div><span style="font-size:13px;font-family:Arial,sans-serif;line-height:16px"><br></span></div></div>
<br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br></div></div>
</div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a></span><br>


<span>Corpora mailing list</span><br><span><a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a></span><br><span><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a></span><br>


</div></blockquote></div></div></div></blockquote></div><br></div>
<br><br>---------- Forwarded message ----------<br>From: <a href="mailto:irehbein@uni-potsdam.de" target="_blank">irehbein@uni-potsdam.de</a><br>To: <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>Cc: <a href="mailto:irehbein@uni-potsdam.de" target="_blank">irehbein@uni-potsdam.de</a><br>

Date: Tue, 10 Sep 2013 08:01:30 +0200<br>Subject: [Corpora-List] Call for Participation: SPMRL 2013 - EMNLP-Workshop on Statistical     Parsing of Morphologically Rich Languages<br>******************************<u></u>******************************<u></u>*************<br>


SPMRL 2013 - EMNLP-Workshop on Statistical<br>
Parsing of Morphologically Rich Languages<br>
******************************<u></u>******************************<u></u>*************<br>
<br>
ENDORSED BY SIGPARSE<br>
<br>
The 4th Workshop on Statistical Parsing of Morphologically Rich Languages<br>
will be held in conjunction with the 2013 Conference on Empirical Methods<br>
in Natural Language Processing (EMNLP 2013) which will take place on<br>
October 18th, 2013 in Seattle, Washington.<br>
<br>
Please note that the workshop takes place BEFORE the main conference<br>
<br>
SPMRL 2013 will also host the first SHARED TASK on parsing morphologically<br>
rich languages (see section below).<br>
<br>
<br>
Workshop Description<br>
--------------------<br>
The SPMRL series of workshop provides a forum for research in parsing<br>
morphologically-rich languages, with the goal of identifying cross-cutting<br>
issues in the annotation and parsing methodology for such languages, which<br>
typically have more flexible word order and/or higher word-form variation<br>
than English.<br>
<br>
Website  <a href="http://www.spmrl.org" target="_blank">http://www.spmrl.org</a><br>
<br>
<br>
Keynote Speaker<br>
---------------<br>
Julia Hockenmaier (University of Illinois at Urbana-Champaign)<br>
<br>
<br>
Chairs<br>
------<br>
The workshop will be chaired by Djamé Seddah and Yuval Marton.<br>
<br>
<br>
Accepted Papers<br>
---------------<br>
LITHUANIAN DEPENDENCY PARSING WITH RICH MORPHOLOGICAL FEATURES<br>
Jurgita Kapociute-Dzikiene, Joakim Nivre and Algis Krupavicius<br>
<br>
PARSING CROATIAN AND SERBIAN BY USING CROATIAN DEPENDENCY TREEBANKS<br>
Zeljko Agic, Danijela Merkler and Dasa Berovic<br>
<br>
A CROSS-TASK FLEXIBLE TRANSITION MODEL FOR ARABIC TOKENIZATION, AFFIX<br>
DETECTION, AFFIX LABELING, POS  Stephen Tratz<br>
<br>
WORKING WITH A SMALL DATASET - SEMI-SUPERVISED DEPENDENCY PARSING FOR IRISH<br>
Teresa Lynn, Jennifer Foster and Mark Dras<br>
<br>
AN EMPIRICAL STUDY ON THE EFFECT OF MORPHOLOGICAL AND LEXICAL FEATURES IN<br>
PERSIAN DEPENDENCY PARSING<br>
Mojtaba Khallash, Ali Hadian and Behrouz Minaei-Bidgoli<br>
<br>
CONSTRUCTING A PRACTICAL CONSTITUENT PARSER FROM A JAPANESE TREEBANK WITH<br>
FUNCTION LABELS  Takaaki Tanaka and Masaaki Nagata<br>
<br>
CONTEXT BASED MORPHOLOGICAL ANALYZER FOR HINDI AND ITS EFFECT ON HINDI<br>
DEPENDENCY PARSING  Deepak Kumar Malladi and Prashanth Mannem<br>
<br>
REPRESENTATION OF MORPHOSYNTACTIC UNITS AND COORDINATION STRUCTURES IN THE<br>
TURKISH DEPENDENCY TREEBANK  Umut Sulubacak and Gülsen Eryigit<br>
<br>
A STATISTICAL APPROACH TO PREDICTION OF EMPTY CATEGORIES IN HINDI<br>
DEPENDENCY TREEBANK  Puneeth Kukkadapu and Prashanth Mannem<br>
<br>
<br>
<br>
SPMRL 2013 SHARED TASK<br>
----------------------<br>
The fourth SPMRL workshop will also host the first shared task on parsing<br>
morphologically rich languages:<br>
<br>
The primary goal of the shared task on parsing morphologically rich<br>
languages is to bring forward work on parsing morphologically ambiguous<br>
input in both dependency and constituency parsing, and to show the state<br>
of the art for MRLs. In the longer term,  we aim to provide streamlined<br>
data sets and  evaluation metrics, thus improving the comparability of<br>
cross-linguistic work on parsing MRLs.  The shared task will feature<br>
tracks in constituency parsing and in dependency parsing, in gold as well<br>
as in realistic scenarios (the realistic scenario will have no gold<br>
tokenization, no gold part-of-speech tags and morphological features).<br>
<br>
Website  <a href="http://www.spmrl.org/spmrl2013-sharedtask.html" target="_blank">http://www.spmrl.org/<u></u>spmrl2013-sharedtask.html</a><br>
<br>
<br>
Workshop Organizers<br>
-------------------<br>
Yoav Goldberg (Bar Ilan University, Israel)<br>
Yuval Marton (Microsoft, WA)<br>
Ines Rehbein (Potsdam University, Germany)<br>
Yannick Versley (Tübingen University, Germany)<br>
<br>
<br>
Shared Task Organizers<br>
----------------------<br>
Sandra Kübler (Indiana University, US)<br>
Djamé Seddah (Université Paris Sorbonne & INRIAs Alpage Project, France)<br>
Reut Tsarfaty (Weizmann Institute of Science, Israel)<br>
<br>
<br>
Program Committee<br>
-----------------<br>
Mohammed Attia (Dublin City University, Ireland)<br>
Bernd Bohnet (University of Birmingham, UK)<br>
Marie Candito (University of Paris 7, France)<br>
Aoife Cahill (Educational Testing Service, US)<br>
Ozlem Cetinoglu (University of Stuttgart, Germany)<br>
Jinho Choi (University of Colorado at Boulder, US)<br>
Grzegorz Chrupala (Saarland University, Germany)<br>
Benoit Crabbé (University of Paris 7, France)<br>
Gülsen Cebiroglu Eryigit (Istanbul Technical University, Turkey)<br>
Michael Elhadad (Ben Gurion University, Israel)<br>
Richard Farkas (University of Szeged, Hungary)<br>
Jennifer Foster (Dublin City University, Ireland)<br>
Josef van Genabith (Dublin City University, Ireland)<br>
Koldo Gojenola (University of the Basque Country, Spain)<br>
Spence Green (Stanford University, US)<br>
Samar Husain (Potsdam University, Germany)<br>
Sandra Kübler (Indiana University, US)<br>
Jonas Kuhn (University of Stuttgart, Germany)<br>
Alberto Lavelli (FBK-irst, Italy)<br>
Joseph Le Roux (Université Paris-Nord, France)<br>
Wolfgang Maier (University of Düsseldorf, Germany)<br>
Takuya Matsuzaki (University of Tokyo, Japan)<br>
Joakim Nivre (Uppsala University, Sweden)<br>
Kemal Oflazer (Carnegie Mellon University, Qatar)<br>
Adam Przepiorkowski (ICS PAS, Poland)<br>
Owen Rambow (Columbia University, US)<br>
Kenji Sagae (University of Southern California, US)<br>
Benoit Sagot (Inria Rocquencourt, France)<br>
Djamé Seddah (Inria Rocquencourt, France)<br>
Reut Tsarfaty (Weizmann Institute of Science, Israel)<br>
Lamia Tounsi (Dublin City University, Ireland)<br>
Daniel Zeman (Charles University, Czechia)<br>
<br>
<br>
<br>
ENDORSEMENT<br>
<br>
This workshop is endorsed by THE ACL SIGPARSE interest group.<br>
<br>
For their precious help preparing the SPMRL 2013 Shared Task and for allowing<br>
their data to be part of it, we warmly thank the Linguistic Data Consortium,<br>
the Knowledge Center for Processing Hebrew (MILA), the Ben Gurion University,<br>
Columbia University, Institute of Computer Science (Polish Academy of<br>
Sciences),<br>
Korea Advanced Institute of Science and Technology, University of the Basque<br>
Country, University of Lisbon, Uppsala University, University of Stuttgart,<br>
University of Szeged and University Paris Diderot (Paris 7).<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br><br>---------- Forwarded message ----------<br>From: "Ivan Krišto" <<a href="mailto:ivan.kristo@gmail.com" target="_blank">ivan.kristo@gmail.com</a>><br>To: liling tan <<a href="mailto:alvations@gmail.com" target="_blank">alvations@gmail.com</a>><br>

Cc: <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>Date: Tue, 10 Sep 2013 09:51:16 +0200<br>Subject: Re: [Corpora-List] World of Warcraft Corpus<br>On 09/09/2013 07:46 AM, liling tan wrote:<br>
> Dear all,<br>
><br>
> Does anyone know of any compilation of World of Warcraft (WoW) chat<br>
> corpus?<br>
><br>
> Any suggestions/advice on how to collect a WoW chat corpus?<br>
<br>
Hello!<br>
<br>
Here is a suggestion how to collect corpus:<br>
- download recorded gameplays from youtube (there should be plenty of them),<br>
- extract chat using OCR.<br>
<br>
This isn't simple method, but it also isn't hard as it seems.<br>
First you need to choose good tool to download YT videos (due to recent<br>
update of YT policy, this isn't some trivial task... maybe Firefox video<br>
downloader plugin will still do the trick).<br>
Break videos into images (or directly use videos, but I prefer images).<br>
I use ffmpeg for this.<br>
Then you need to define part of screen where chats are (to reduce noise<br>
and speed up process). Crop chat screen rectangle from images (I use<br>
ImageMagick for this). Also, you could boost contrast on those images<br>
for better OCR results (ImageMagick can do this).<br>
Then use some OCR software to extract chat text (Tesseract should be<br>
fine -- <a href="http://code.google.com/p/tesseract-ocr/" target="_blank">http://code.google.com/p/tesseract-ocr/</a> ; but you have a lot of<br>
options:<br>
<a href="http://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software" target="_blank">http://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software</a><br>
).<br>
At the end, you need to filter out duplicates (more than one frame will<br>
contain same messages).This is also easy.<br>
<br>
In summary, If you manage to find ocr software which will behave as:<br>
ocr chat-window.jpg > chat.txt<br>
then, without counting lines of code needed to filter out duplicates and<br>
manual work to download videos, you'll have only 3-5 lines of code :).<br>
<br>
<br>
  Regards,<br>
    Ivan Krišto<br>
<br>
<br>
<br>_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br></div></div></div>