<html><body><div style="color:#000; background-color:#fff; font-family:times new roman, new york, times, serif;font-size:12pt"><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 12pt;"><span><br></span></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><span> 1. Need help on Arabic morphological analyzer (Pavel Shkadzko)<br></span></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><span><br></span></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><span>Here is the links for two related tools that you might also consider.</span></div><div style="font-family: 'times new
roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><br></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><span style="font-family: Verdana, Helvetica, Arial, sans-serif; font-size: 13px; line-height: 18.1875px; text-align: justify; background-color: transparent;">1- MADA (Morphological Analysis and Disambiguation for Arabic)</span><br></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><span style="font-family: Verdana, Helvetica, Arial, sans-serif; font-size: 13px; line-height: 18.1875px; text-align: justify;"><br></span></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color:
transparent; font-style: normal;"><span><a href="http://www1.ccls.columbia.edu/MADA/">http://www1.ccls.columbia.edu/MADA/</a><br></span></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><br></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><br></div><div style="background-color: transparent;">2- LDC Standard Arabic Morphological Analyzer (SAMA) Version 3.1</div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 12pt;"><br></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><a
href="http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2010L01">http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2010L01</a><br></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><br></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 12pt;"><span style="background-color: transparent;">Hope this helps,</span><br></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><br></div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;">Wajdi Zaghouani</div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0);
background-color: transparent; font-style: normal;">--------------------</div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;">Research Associate</div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;">CMU-Qatar</div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;">wajdiz@cmu.edu</div><div style="font-family: 'times new roman', 'new york', times, serif; font-size: 16px; color: rgb(0, 0, 0); background-color: transparent; font-style: normal;"><br></div> <div style="font-family: 'times new roman', 'new york', times, serif; font-size: 12pt;"> <div style="font-family: 'times new roman', 'new york', times, serif; font-size: 12pt;">
<div dir="ltr"> <hr size="1"> <font size="2" face="Arial"> <b><span style="font-weight:bold;">From:</span></b> "corpora-request@uib.no" <corpora-request@uib.no><br> <b><span style="font-weight: bold;">To:</span></b> corpora@uib.no <br> <b><span style="font-weight: bold;">Sent:</span></b> Monday, July 15, 2013 11:03:30 PM<br> <b><span style="font-weight: bold;">Subject:</span></b> Corpora Digest, Vol 73, Issue 17<br> </font> </div> <div class="y_msg_container"><br>Today's Topics:<br><br> 1. Need help on Arabic morphological analyzer (Pavel Shkadzko)<br> 2. Appel à collaboration : lemmatisation du français 15è-20è s.<br> (Denis Vigier)<br> 3. Call for papers: Quantitative approaches in corpus<br> linguistics and psycholinguistics (Paris, France) (Juliette Thuilier)<br><br><br>----------------------------------------------------------------------<br><br>Message:
1<br>Date: Mon, 15 Jul 2013 14:50:00 +0300<br>From: Pavel Shkadzko <<a ymailto="mailto:tastyminerals@gmail.com" href="mailto:tastyminerals@gmail.com">tastyminerals@gmail.com</a>><br>Subject: [Corpora-List] Need help on Arabic morphological analyzer<br>To: <a ymailto="mailto:corpora@uib.no" href="mailto:corpora@uib.no">corpora@uib.no</a><br><br>Dear Corpora-List members,<br><br>I am searching for a good Arabic morphological analyzer (licence friendly).<br>Here is a list of stemmers/ morphological analyzers I have found so far.<br><br>Shereen Khoja stemmer,<br>Sebawai,<br>Al-Stem,<br>aramorph,<br>AlKhalil,<br>ElixirFM<br><br>There was a comparative evaluation<br>report(www.aclweb.org/anthology/*C08*-*2027*.pdf) on Arabic<br>stemmers/morphology analyzers that stated ?Shereen Khoja stemmer? to<br>have the highest accuracy. What do you think? Unfortunately I was not<br>able to find any other relevant information on the subject, what<br>stemmers
or morph analyzers are good. I would greatly appreciate any<br>advice.<br><br>Thank you,<br>Pavel<br>-------------- next part --------------<br>A non-text attachment was scrubbed...<br>Name: not available<br>Type: text/html<br>Size: 1313 bytes<br>Desc: not available<br>URL: <<a href="http://www.uib.no/mailman/public/corpora/attachments/20130715/0c5d90bf/attachment.txt" target="_blank">http://www.uib.no/mailman/public/corpora/attachments/20130715/0c5d90bf/attachment.txt</a>><br><br>------------------------------<br><br>Message: 2<br>Date: Mon, 15 Jul 2013 17:00:23 +0200<br>From: Denis Vigier <<a ymailto="mailto:denis.vigier@ens-lyon.fr" href="mailto:denis.vigier@ens-lyon.fr">denis.vigier@ens-lyon.fr</a>><br>Subject: [Corpora-List] Appel à collaboration : lemmatisation du<br> français 15è-20è s.<br>To: <a ymailto="mailto:secretariat.ilf@ling.cnrs.fr"
href="mailto:secretariat.ilf@ling.cnrs.fr">secretariat.ilf@ling.cnrs.fr</a>, <a ymailto="mailto:chercheurs_sdl@univ-metz.fr" href="mailto:chercheurs_sdl@univ-metz.fr">chercheurs_sdl@univ-metz.fr</a>,<br> <a ymailto="mailto:ln@cines.fr" href="mailto:ln@cines.fr">ln@cines.fr</a>, <a ymailto="mailto:corpora@uib.no" href="mailto:corpora@uib.no">corpora@uib.no</a>, Association ASL ASL<br> <<a ymailto="mailto:assoc.asl@gmail.com" href="mailto:assoc.asl@gmail.com">assoc.asl@gmail.com</a>>, <a ymailto="mailto:cahier@groupes.renater.fr" href="mailto:cahier@groupes.renater.fr">cahier@groupes.renater.fr</a><br>Cc: Janine Schwieres <<a ymailto="mailto:Janine_Schwieres@web.de" href="mailto:Janine_Schwieres@web.de">Janine_Schwieres@web.de</a>>, Denis Vigier<br> <<a ymailto="mailto:denis.vigier@univ-lyon2.fr"
href="mailto:denis.vigier@univ-lyon2.fr">denis.vigier@univ-lyon2.fr</a>>, Peter Blumenthal<br> <<a ymailto="mailto:peter.blumenthal@uni-koeln.de" href="mailto:peter.blumenthal@uni-koeln.de">peter.blumenthal@uni-koeln.de</a>>, Aymen Khelifi<br> <<a ymailto="mailto:aymen.khelifi@ens-lyon.fr" href="mailto:aymen.khelifi@ens-lyon.fr">aymen.khelifi@ens-lyon.fr</a>>, Céline Guillot<br> <<a ymailto="mailto:celine.guillot@ens-lyon.fr" href="mailto:celine.guillot@ens-lyon.fr">celine.guillot@ens-lyon.fr</a>><br><br>Objet du message = Appel à collaboration : lemmatisation du français 15è-20è s.<br>Coordonnées: VIGIER, Denis, MCF Lyon2, UMR ICAR <a href="http://icar.univ-lyon2.fr/membres/dvigier/" target="_blank">http://icar.univ-lyon2.fr/membres/dvigier/</a><br><br>Chères et chers collègues,<br><br>Vous serait-il possible de diffuser à votre
liste de destinataires l'annonce ci-dessous (Appel à collaboration : lemmatisation du français 15è-20è s.) pour le projet PRESTO (ANR-DFG 2013-2016)<br>D'avance merci<br>Bien cordialement<br><br>Denis Vigier<br>MCF Langue et Linguistique Françaises<br>Université Lyon 2 / UMR ICAR<br><a href="http://icar.univ-lyon2.fr/membres/dvigier" target="_blank">http://icar.univ-lyon2.fr/membres/dvigier</a><br><br>---------------------------------<br><br><br>Chers collègues,<br><br>Le projet PRESTO financé par l'ANR et la DFG (resp.: D. Vigier, Univ. Lyon2 et P. Blumenthal, Univ. de Cologne - CF Résumé ci-dessous) lance une opération de lemmatisation d'un corpus de textes français dont les dates de composition s'échelonnent de 1500 et 2000. Pour cela, il a été prévu :<br>- de construire un ou plusieurs lemmatiseurs sur la base des logiciels de l'état de l'art (MElt, TreeTagger, LGTagger...) ;<br>- de construire un lexique morphologique le plus
complet possible associant « forme(1) - catégorie morphosyntaxique(2) - lemme(3) » ;<br>- de construire des jeux de règles de transformation orthographique (modernisation ou archaïsation) ;<br>- de construire des corpus d'apprentissage déjà étiquetés. <br><br>Le projet PRESTO souhaite développer le lexique en appliquant un modèle de construction équivalent à celui utilisé pour le développement des logiciels ouverts (open-source), c'est à dire en compilant différents lexiques en un lexique commun diffusé sous licence libre - de type LGPLFLR (Lesser General Public License For Linguistic Resources - voir : <a href="http://hoop.univ-mlv.fr/lgpllr.html" target="_blank">http://hoop.univ-mlv.fr/lgpllr.html</a>). Cette licence précisera explicitement la contribution de chaque partenaire et la mise à jour régulière du lexique sera réalisée de façon communautaire au bénéfice de tous les contributeurs.<br><br>Le développement du
lemmatiseur se fera dans le cadre de la plateforme TXM qui offre déjà un cadre de développement open-source en logistique de corpus (gestion de formats standards en import et en export,<br>intégration d'outils de TAL tiers, etc.). Ce nouvel outil de lemmatisation sera ouvert à tous et librement adaptable (open-source avec une licence de diffusion de logiciel de type GNU GPL - voir : <a href="http://www.rodage.org/gpl-3.0.fr.txt" target="_blank">http://www.rodage.org/gpl-3.0.fr.txt</a>).<br><br>Si vous disposez de ressources pour la période 15è - 20è s., nous souhaiterions savoir si vous êtes intéressés par des échanges et par le partage d'un lexique, de jeux de règles de transformation ou de corpus d'apprentissage dans les conditions décrites ci-dessus.<br><br>Si vous connaissez des personnes qui pourraient être intéressées, nous vous serions très reconnaissants de leur faire suivre ce mail.<br><br>Bien cordialement,<br><br>Denis
Vigier et Peter Blumenthal pour le projet PRESTO<br>Adresse de contact:<br><br>(1) certaines formes pourront être composées si nécessaire (par exemple comme dans le cas d'un dictionnaire Unitex)<br>(2) nous souhaiterions utiliser un jeu d'étiquettes normalisé basé par exemple sur le standard Multext adapté aux différents états de langue diachroniques (<a href="http://nl.ijs.si/ME/V4" target="_blank">http://nl.ijs.si/ME/V4</a>)<br>(3) nous souhaiterions utiliser des formes modernisées des lemmes y compris pour les périodes anciennes<br><br><br>Résumé du projet PRESTO:<br>Ce projet a pour but l?étude diachronique de l?emploi, des valeurs sémantiques et discursives des prépositions françaises "à, en, par, contre, dès, devant, entre, pour, sans, sur, sous, vers, dans", de l?ancienne langue jusqu?au français contemporain.<br><br>Instrumentée, adossée à une approche statistique et distributionnelle, cette étude portera sur
les variations du comportement combinatoire des prépositions suivant des critères de dates (évolution diachronique), de genres et d?auteurs. Notre attention se portera tout particulièrement sur la détection des combinaisons hautement spécifiques dans lesquelles entrent ces prépositions. Nous étudierons l?émergence, la réorganisation et le déclin de structures prépositionnelles figées. Nous comptons parvenir à une vision innovatrice du devenir historique sur la base d?un modèle d?analyse fondé sur deux séries de démarches méthodologiques : (1) l?étude de l?interdépendance entre le quantitatif (les emplois) et le qualitatif (les valeurs) ; (2) l?étude des principes qui ont guidé, en diachronie, la recherche de plus-values sémantiques et discursives, véritable moteur du changement linguistique.<br><br><br>L?un des réquisits ? mais aussi l?un des apports majeurs de ce projet - consistera en la constitution d?un corpus comportant
des données étiquetées et lemmatisées, représentant toutes les périodes de l?histoire du français ainsi que différents genres discursifs et types de textes. Ce corpus, élaboré conjointement par les équipes française et allemande, s?appuiera pour partie sur les ressources déjà disponibles à Lyon (période médiévale), à Tours (XVIe s.), à Nancy (ATILF) et à Cologne (période moderne, XVIIe s. ? XXe s.). Une politique active sera menée pour permettre l?ouverture de la plus grande partie possible de ce corpus.<br><br>-------------- next part --------------<br>A non-text attachment was scrubbed...<br>Name: not available<br>Type: text/html<br>Size: 10413 bytes<br>Desc: not available<br>URL: <<a href="http://www.uib.no/mailman/public/corpora/attachments/20130715/5493b998/attachment.txt"
target="_blank">http://www.uib.no/mailman/public/corpora/attachments/20130715/5493b998/attachment.txt</a>><br><br>------------------------------<br><br>Message: 3<br>Date: Thu, 11 Jul 2013 17:46:07 +0200<br>From: Juliette Thuilier <<a ymailto="mailto:juliette.thuilier@paris-sorbonne.fr" href="mailto:juliette.thuilier@paris-sorbonne.fr">juliette.thuilier@paris-sorbonne.fr</a>><br>Subject: [Corpora-List] Call for papers: Quantitative approaches in<br> corpus linguistics and psycholinguistics (Paris, France)<br>To: <<a ymailto="mailto:corpora@uib.no" href="mailto:corpora@uib.no">corpora@uib.no</a>><br><br>--------------------ENGLISH-----------------------------<br><br>Research Day (ATALA - Labex EFL)<br><br>Quantitative approaches in corpus linguistics and psycholinguistics:<br>Word order and constituent order<br><br>**The call for papers is attached**<br><br>In partnership with ATALA, Labex EFL and INALCO, we are
organizing a <br>scientific research day on the topic of word order and constituent order <br>alternations from quantitative and psycholinguistic perspectives.<br><br>The workshop will be held on October 18, 2013 at INALCO (Auditorium).<br><br>Invited speaker: Joan Bresnan (Stanford University)<br><br>For more information, please visit the website: <br><a href="https://sites.google.com/site/journeeatalalabex/8-english-version" target="_blank">https://sites.google.com/site/journeeatalalabex/8-english-version</a><br><br>Important dates:<br>- Deadline for submission: August 15, 2013<br>- Notification of acceptance: September 16, 2013<br>- Program available: September 23, 2013<br>- Research day: October 18, 2013<br><br>Organizers :<br>- Margaret Grant (Labex EFL, Université Paris Diderot, ALPAGE, LLF)<br>- Juliette Thuilier (Université Paris-Sorbonne and ALPAGE)<br><br><br>--------------------FRANCAIS-----------------------------<br><br>Journée
scientifique ATALA - LABEX EFL<br><br>Approches quantitatives en corpus et psycholinguistiques : Ordre des <br>mots et des constituants<br><br>**L'appel à communications est en pièce jointe**<br><br>En partenariat avec l'ATALA, le Labex EFL et l'INALCO, nous organisons <br>une journée scientifique autour de la problématique de l'ordre des mots <br>et des constituants dans une perspective quantitative et <br>psycholinguistique.<br><br>Cette journée aura lieu le vendredi 18 octobre 2013 à l'INALCO <br>(Auditorium)<br><br>Conférencière invitée : Joan Bresnan (Stanford University)<br><br>Pour plus d'informations, veuillez consulter le site de la journée : <br><a href="https://sites.google.com/site/journeeatalalabex/home" target="_blank">https://sites.google.com/site/journeeatalalabex/home</a><br><br>Dates importantes :<br>- Date limite de soumission : 15 août 2013<br>- Notifications : 16 septembre 2013<br>- Programme disponible : 23 septembre
2013<br>- Journée scientifique : 18 octobre 2013<br><br>Organisatrices :<br>- Margaret Grant (Labex EFL, Université Paris Diderot, ALPAGE, LLF)<br>- Juliette Thuilier (Université Paris-Sorbonne et ALPAGE)<br>-------------- next part --------------<br>A non-text attachment was scrubbed...<br>Name: atala_appel.pdf<br>Type: application/pdf<br>Size: 80421 bytes<br>Desc: not available<br>URL: <<a href="http://www.uib.no/mailman/public/corpora/attachments/20130711/c6fbffd5/attachment.pdf" target="_blank">http://www.uib.no/mailman/public/corpora/attachments/20130711/c6fbffd5/attachment.pdf</a>><br><br>----------------------------------------------------------------------<br>Send Corpora mailing list submissions to<br> <a ymailto="mailto:corpora@uib.no" href="mailto:corpora@uib.no">corpora@uib.no</a><br><br>To subscribe or unsubscribe via the World Wide Web, visit<br> <a href="http://mailman.uib.no/listinfo/corpora"
target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>or, via email, send a message with subject or body 'help' to<br> <a ymailto="mailto:corpora-request@uib.no" href="mailto:corpora-request@uib.no">corpora-request@uib.no</a><br><br>You can reach the person managing the list at<br> <a ymailto="mailto:corpora-owner@uib.no" href="mailto:corpora-owner@uib.no">corpora-owner@uib.no</a><br><br>When replying, please edit your Subject line so it is more specific<br>than "Re: Contents of Corpora digest..."<br><br><br>_______________________________________________<br>Corpora mailing list<br><a ymailto="mailto:Corpora@uib.no" href="mailto:Corpora@uib.no">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br><br><br>End of Corpora Digest, Vol 73, Issue 17<br>***************************************<br><br><br></div> </div> </div>
</div></body></html>