Hello,<br><br>As far as I know a freely available Greek corpus is not available. But you might want to contact Dr. Dionisis Goutsos who is responsible for the SEK project at the University of Athens though. You can find his email mentioned in the SEK <a href="http://sek.edu.gr/contact.php">contact page</a>. SEK was the result of a cooperation between the universities of Athens and Cyprus and is available on the web for searches by following this <a href="http://www.sek.edu.gr">link</a>. It contains both written and oral sources from Greece and Cyprus; you can see the full list <a href="http://www.sek.edu.gr/dl/SekFileList.pdf">here</a>. Maybe the SEK corpus can be made available for research purposes but Dr. Goutsos would be the best person to help you out.<br>
<br>As mentioned by others ILSP also has a corpus but that too is not freely available. There is a public search interface for this corpus as well; you can see it by following this <a href="http://hnc.ilsp.gr/en/default.asp">link</a>. ILSP too might make the corpus available for research purposes but I am not sure.<br>
<br>Best,<br>Valentini Mellas<br>
<br><br><div class="gmail_quote">On Wed, Feb 9, 2011 at 9:21 PM, Daniel Zeman <span dir="ltr"><<a href="mailto:zeman@ufal.mff.cuni.cz">zeman@ufal.mff.cuni.cz</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Hi, there is something called Greek Dependency Treebank (GDT). It was part of the CoNLL 2007 shared task but the license was granted only for the shared task. Maybe if you get in touch with the ILSP, they will tell you how to obtain it:<br>

<br>
Prokopis Prokopidis, Elina Desypri, Maria Koutsombogera, Haris Papageorgiou, and Stelios Piperidis. Theoretical and Practical Issues in the Construction of a Greek Dependency Treebank. In Montserrat Civit, Sandra Kübler, and Ma. Antonia Martí, editors, Proceedings of The Fourth Workshop on Treebanks and Linguistic Theories (TLT 2005), pages 149-160, Barcelona, Spain, December 2005. Universitat de Barcelona.<br>

<br>
* (c) 2005-2007, by the Institute for Language and Speech Processing. ILSP owns the copyright to all automatic and manually-validated annotations in the GDT.<br>
<br>
Best,<br>
Dan<br>
<br>
Dne 9.2.2011 19:57, Taras Zagibalov napsal(a):<div><div></div><div class="h5"><br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Yes, Fran, first thing I did was deleting everything between<>.<br>
Thank you, anyway.<br>
<br>
Taras<br>
<br>
2011/2/9 Francis Tyers<<a href="mailto:ftyers@prompsit.com" target="_blank">ftyers@prompsit.com</a>>:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Are you sure those aren't tags ? Try and grep any line with '<' out and<br>
see what you get. But yeah, Europarl isn't a balanced corpus by any<br>
means.<br>
<br>
For Wikipedia, it depends, you'll probably get stuff like science words<br>
fairly high, or history.<br>
<br>
If you want a corpus of news text about the Balkans, you could do worse<br>
than SETIMES <a href="http://www.statmt.org/setimes/" target="_blank">http://www.statmt.org/setimes/</a><br>
<br>
But if you want a BNC-style "balanced corpus" of Greek, then I have no<br>
idea sorry! Those things usually don't come cheap/free :)<br>
<br>
Fran<br>
<br>
El dc 09 de 02 de 2011 a les 17:43 +0000, en/na Taras Zagibalov va<br>
escriure:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
My worst fears came true: for the europarl corpus, the most frequent<br>
words (among others) are NAME, SPEAKER, AFFILIATION, LANGUAGE (in<br>
English, all capitals). As for Greek words, among the most frequent<br>
ones is for example Επιτροπής (Commission).<br>
That's not very good if you want to have a corpus that represents a<br>
language in general.<br>
Probably someone knows any collection of generic texts in Greek?<br>
<br>
As for Wikipedia-based corpus, it most probably has the same problem<br>
as europarl - it's too genre/style specific.<br>
<br>
Regards,<br>
Taras<br>
<br>
<br>
2011/2/9 Francis Tyers<<a href="mailto:ftyers@prompsit.com" target="_blank">ftyers@prompsit.com</a>><br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
You can always try the Greek Wikipedia:<br>
<br>
<a href="http://dumps.wikimedia.org/elwiki/20110203/" target="_blank">http://dumps.wikimedia.org/elwiki/20110203/</a><br>
<br>
There are a few tools around for converting it into text.<br>
<br>
Fran<br>
<br>
El dc 09 de 02 de 2011 a les 15:36 +0000, en/na Taras Zagibalov va<br>
escriure:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Thank you Fran and Alberto,<br>
<br>
<br>
The europarl corpus is fine and I will use it. But I assume its quite<br>
specific in terms of style (official, I assume). Is there a corpus of<br>
a more generic language? Probably a collection of modern literature or<br>
web-based content (blogs, forums etc.)?<br>
<br>
<br>
Thank you.<br>
<br>
<br>
Taras<br>
<br>
2011/2/9 Alberto Simões<<a href="mailto:albie@alfarrabio.di.uminho.pt" target="_blank">albie@alfarrabio.di.uminho.pt</a>><br>
         Dear taras,<br>
<br>
          EuroParl [1] and JRC-Acquis [2] include Greek versions.<br>
<br>
         [1] <a href="http://www.statmt.org/europarl/" target="_blank">http://www.statmt.org/europarl/</a><br>
         [2] <a href="http://wt.jrc.it/lt/Acquis/" target="_blank">http://wt.jrc.it/lt/Acquis/</a><br>
<br>
         Hope this helps<br>
         Alberto<br>
<br>
<br>
<br>
         On 09/02/2011 14:44, Taras Zagibalov wrote:<br>
<br>
<br>
                 Dear list members,<br>
<br>
                 Do you know any freely available plain text modern<br>
                 Greek corpus?<br>
                 Preferably in Unicode.<br>
<br>
                 Best regards,<br>
                 Taras Zagibalov<br>
<br>
<br>
<br>
<br>
                 _______________________________________________<br>
                 Corpora mailing list<br>
                 <a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
                 <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br>
         --<br>
         Alberto Simões<br>
<br>
         _______________________________________________<br>
         Corpora mailing list<br>
         <a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
         <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br>
<br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote>
<br>
</blockquote>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote>
<br>
<br>
</blockquote>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote>
<br></div></div><font color="#888888">
-- <br>
RNDr. Daniel Zeman, Ph.D.<br>
ÚFAL MFF, Univerzita Karlova, Praha<br>
<a href="http://ufal.mff.cuni.cz/%7Ezeman/" target="_blank">http://ufal.mff.cuni.cz/~zeman/</a></font><div><div></div><div class="h5"><br>
<br>
<br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</div></div></blockquote></div><br>