[Corpora-List] Corpora Digest, Vol 73, Issue 17

Mon Jul 15 23:19:10 UTC 2013

  1.  Need help on Arabic morphological analyzer (Pavel Shkadzko)

Here is the links for two related tools that you might also consider.

1- MADA (Morphological Analysis and Disambiguation for Arabic)

http://www1.ccls.columbia.edu/MADA/

2- LDC Standard Arabic Morphological Analyzer (SAMA) Version 3.1

http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2010L01

Hope this helps,

Wajdi Zaghouani
--------------------
Research Associate
CMU-Qatar
wajdiz at cmu.edu

________________________________
 From: "corpora-request at uib.no" <corpora-request at uib.no>
To: corpora at uib.no 
Sent: Monday, July 15, 2013 11:03:30 PM
Subject: Corpora Digest, Vol 73, Issue 17

Today's Topics:

   1.   Need help on Arabic morphological analyzer (Pavel Shkadzko)
   2.  Appel à collaboration : lemmatisation du français 15è-20è s.
      (Denis Vigier)
   3.  Call for papers: Quantitative approaches in corpus
      linguistics and psycholinguistics (Paris, France) (Juliette Thuilier)

----------------------------------------------------------------------

Message: 1
Date: Mon, 15 Jul 2013 14:50:00 +0300
From: Pavel Shkadzko <tastyminerals at gmail.com>
Subject: [Corpora-List]  Need help on Arabic morphological analyzer
To: corpora at uib.no

Dear Corpora-List members,

I am searching for a good Arabic morphological analyzer (licence friendly).
Here is a list of stemmers/ morphological analyzers I have found so far.

Shereen Khoja stemmer,
Sebawai,
Al-Stem,
aramorph,
AlKhalil,
ElixirFM

There was a comparative evaluation
report(www.aclweb.org/anthology/*C08*-*2027*.pdf) on Arabic
stemmers/morphology analyzers that stated ?Shereen Khoja stemmer? to
have the highest accuracy. What do you think? Unfortunately I was not
able to find any other relevant information on the subject, what
stemmers or morph analyzers are good. I would greatly appreciate any
advice.

Thank you,
Pavel
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: text/html
Size: 1313 bytes
Desc: not available
URL: <http://www.uib.no/mailman/public/corpora/attachments/20130715/0c5d90bf/attachment.txt>

------------------------------

Message: 2
Date: Mon, 15 Jul 2013 17:00:23 +0200
From: Denis Vigier <denis.vigier at ens-lyon.fr>
Subject: [Corpora-List] Appel à collaboration : lemmatisation du
    français 15è-20è s.
To: secretariat.ilf at ling.cnrs.fr, chercheurs_sdl at univ-metz.fr,
    ln at cines.fr,    corpora at uib.no, Association ASL ASL
    <assoc.asl at gmail.com>,    cahier at groupes.renater.fr
Cc: Janine Schwieres <Janine_Schwieres at web.de>,    Denis Vigier
    <denis.vigier at univ-lyon2.fr>,    Peter Blumenthal
    <peter.blumenthal at uni-koeln.de>,    Aymen Khelifi
    <aymen.khelifi at ens-lyon.fr>, Céline Guillot
    <celine.guillot at ens-lyon.fr>

Objet du message = Appel à collaboration : lemmatisation du français 15è-20è s.
Coordonnées: VIGIER, Denis, MCF Lyon2, UMR ICAR  http://icar.univ-lyon2.fr/membres/dvigier/

Chères et chers collègues,

Vous serait-il possible de diffuser à votre liste de destinataires l'annonce ci-dessous (Appel à collaboration : lemmatisation du français 15è-20è s.) pour le projet PRESTO (ANR-DFG 2013-2016)
D'avance merci
Bien cordialement

Denis Vigier
MCF Langue et Linguistique Françaises
Université Lyon 2 / UMR ICAR
http://icar.univ-lyon2.fr/membres/dvigier

---------------------------------

Chers collègues,

Le projet PRESTO financé par l'ANR et la DFG (resp.: D. Vigier, Univ. Lyon2 et P. Blumenthal, Univ. de Cologne - CF Résumé ci-dessous) lance une opération de lemmatisation d'un corpus de textes français dont les dates de composition s'échelonnent de 1500 et 2000. Pour cela, il a été prévu :
- de construire un ou plusieurs lemmatiseurs sur la base des logiciels de l'état de l'art (MElt, TreeTagger, LGTagger...) ;
- de construire un lexique morphologique le plus complet possible associant « forme(1) - catégorie morphosyntaxique(2) - lemme(3) » ;
- de construire des jeux de règles de transformation orthographique (modernisation ou archaïsation) ;
- de construire des corpus d'apprentissage déjà étiquetés.  

Le projet PRESTO souhaite développer le lexique en appliquant un modèle de construction équivalent à celui utilisé pour le développement des logiciels ouverts (open-source), c'est à dire en compilant différents lexiques en un lexique commun diffusé sous licence libre - de type LGPLFLR (Lesser General Public License For Linguistic Resources - voir : http://hoop.univ-mlv.fr/lgpllr.html). Cette licence précisera explicitement la contribution de chaque partenaire et la mise à jour régulière du lexique sera réalisée de façon communautaire au bénéfice de tous les contributeurs.

Le développement du lemmatiseur se fera dans le cadre de la plateforme TXM qui offre déjà un cadre de développement open-source en logistique de corpus (gestion de formats standards en import et en export,
intégration d'outils de TAL tiers, etc.). Ce nouvel outil de lemmatisation sera ouvert à tous et librement adaptable (open-source avec une licence de diffusion de logiciel de type GNU GPL - voir : http://www.rodage.org/gpl-3.0.fr.txt).

Si vous disposez de ressources pour la période 15è - 20è s., nous souhaiterions savoir si vous êtes intéressés par des échanges et par le partage d'un lexique, de jeux de règles de transformation ou de corpus d'apprentissage dans les conditions décrites ci-dessus.

Si vous connaissez des personnes qui pourraient être intéressées, nous vous serions très reconnaissants de leur faire suivre ce mail.

Bien cordialement,

Denis Vigier et Peter Blumenthal pour le projet PRESTO
Adresse de contact:

(1) certaines formes pourront être composées si nécessaire (par exemple comme dans le cas d'un dictionnaire Unitex)
(2) nous souhaiterions utiliser un jeu d'étiquettes normalisé basé par exemple sur le standard Multext  adapté aux différents états de langue diachroniques   (http://nl.ijs.si/ME/V4)
(3) nous souhaiterions utiliser des formes modernisées des lemmes y compris pour les périodes anciennes

Résumé du projet PRESTO:
Ce projet a pour but l?étude diachronique de l?emploi, des valeurs sémantiques et discursives des prépositions françaises "à, en, par, contre, dès, devant, entre, pour, sans, sur, sous, vers, dans", de l?ancienne langue jusqu?au français contemporain.

Instrumentée, adossée à une approche statistique et distributionnelle, cette étude portera sur les variations du comportement combinatoire des prépositions suivant des critères de dates (évolution diachronique), de genres et d?auteurs. Notre attention se portera tout particulièrement sur la détection des combinaisons hautement spécifiques dans lesquelles entrent ces prépositions. Nous étudierons l?émergence, la réorganisation et le déclin de structures prépositionnelles figées. Nous comptons parvenir à une vision innovatrice du devenir historique sur la base d?un modèle d?analyse fondé sur deux séries de démarches méthodologiques : (1) l?étude de l?interdépendance entre le quantitatif (les emplois) et le qualitatif (les valeurs) ; (2) l?étude des principes qui ont guidé, en diachronie, la recherche de plus-values sémantiques et discursives, véritable moteur du changement linguistique.

L?un des réquisits ? mais aussi l?un des apports majeurs de ce projet - consistera en la constitution d?un corpus comportant des données étiquetées et lemmatisées, représentant toutes les périodes de l?histoire du français ainsi que différents genres discursifs et types de textes. Ce corpus, élaboré conjointement par les équipes française et allemande, s?appuiera pour partie sur les ressources déjà disponibles à Lyon (période médiévale), à Tours (XVIe s.), à Nancy (ATILF) et à Cologne (période moderne, XVIIe s. ? XXe s.). Une politique active sera menée pour permettre l?ouverture de la plus grande partie possible de ce corpus.

-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: text/html
Size: 10413 bytes
Desc: not available
URL: <http://www.uib.no/mailman/public/corpora/attachments/20130715/5493b998/attachment.txt>

------------------------------

Message: 3
Date: Thu, 11 Jul 2013 17:46:07 +0200
From: Juliette Thuilier <juliette.thuilier at paris-sorbonne.fr>
Subject: [Corpora-List] Call for papers: Quantitative approaches in
    corpus linguistics and psycholinguistics (Paris, France)
To: <corpora at uib.no>

--------------------ENGLISH-----------------------------

Research Day (ATALA - Labex EFL)

Quantitative approaches in corpus linguistics and psycholinguistics:
Word order and constituent order

**The call for papers is attached**

In partnership with ATALA, Labex EFL and INALCO, we are organizing a 
scientific research day on the topic of word order and constituent order 
alternations from quantitative and psycholinguistic perspectives.

The workshop will be held on October 18, 2013 at INALCO (Auditorium).

Invited speaker: Joan Bresnan (Stanford University)

For more information, please visit the website: 
https://sites.google.com/site/journeeatalalabex/8-english-version

Important dates:
- Deadline for submission: August 15, 2013
- Notification of acceptance: September 16, 2013
- Program available: September 23, 2013
- Research day: October 18, 2013

Organizers :
- Margaret Grant (Labex EFL, Université Paris Diderot, ALPAGE, LLF)
- Juliette Thuilier (Université Paris-Sorbonne and ALPAGE)

--------------------FRANCAIS-----------------------------

Journée scientifique ATALA - LABEX EFL

Approches quantitatives en corpus et psycholinguistiques : Ordre des 
mots et des constituants

**L'appel à communications est en pièce jointe**

En partenariat avec l'ATALA, le Labex EFL et l'INALCO, nous organisons 
une journée scientifique autour de la problématique de l'ordre des mots 
et des constituants dans une perspective quantitative et 
psycholinguistique.

Cette journée aura lieu le vendredi 18 octobre 2013 à l'INALCO 
(Auditorium)

Conférencière invitée : Joan Bresnan (Stanford University)

Pour plus d'informations, veuillez consulter le site de la journée : 
https://sites.google.com/site/journeeatalalabex/home

Dates importantes :
- Date limite de soumission : 15 août 2013
- Notifications : 16 septembre 2013
- Programme disponible : 23 septembre 2013
- Journée scientifique : 18 octobre 2013

Organisatrices :
- Margaret Grant (Labex EFL, Université Paris Diderot, ALPAGE, LLF)
- Juliette Thuilier (Université Paris-Sorbonne et ALPAGE)
-------------- next part --------------
A non-text attachment was scrubbed...
Name: atala_appel.pdf
Type: application/pdf
Size: 80421 bytes
Desc: not available
URL: <http://www.uib.no/mailman/public/corpora/attachments/20130711/c6fbffd5/attachment.pdf>

----------------------------------------------------------------------
Send Corpora mailing list submissions to
    corpora at uib.no

To subscribe or unsubscribe via the World Wide Web, visit
    http://mailman.uib.no/listinfo/corpora
or, via email, send a message with subject or body 'help' to
    corpora-request at uib.no

You can reach the person managing the list at
    corpora-owner at uib.no

When replying, please edit your Subject line so it is more specific
than "Re: Contents of Corpora digest..."

_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora

End of Corpora Digest, Vol 73, Issue 17
***************************************
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/corpora/attachments/20130715/3f27f3d3/attachment.htm>
-------------- next part --------------
_______________________________________________
UNSUBSCRIBE from this page: http://mailman.uib.no/options/corpora
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora