Ressources: Corpus de SMS

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Wed Sep 27 09:18:56 UTC 2006


Date: Mon, 25 Sep 2006 15:34:17 +0200
From: Cédrick Fairon <cedrick.fairon at uclouvain.be>
Message-Id: <C8D40757-7DB7-4A42-AB1B-7831687EB3F8 at uclouvain.be>
X-url: http://www.i6doc.com/doc/smscd.
X-url: http://www.smspourlascience.be/
X-url: http://cental.fltr.ucl.ac.be/cahiers
X-url: http://www.i6doc.com/doc/smscd


Chèr(e)s collègues,

J'ai le plaisir de vous annoncer la disponibilité d'un corpus de
30.000 SMS en français. Ce corpus, intitulé « SMS pour la science » en
référence au projet dans le cadre duquel il a été collecté, a été
publié aux Presses universitaires de Louvain. Il est disponible sur
CD-ROM ou en téléchargement : http://www.i6doc.com/doc/smscd.

Quelques particularités en font une ressource exceptionnelle :

- données récoltées de manière électronique (sans recopiage manuel) ;

- couvrant un large échantillon de population (2436 auteurs de 12 à 73
ans) ;

- profil sociolinguistique disponible pour 90% des auteurs (âge, sexe,
profession, niveau d'études, langue maternelle, etc.) ;

- transcription des 30.000 SMS en français standardisé : le logiciel
d'interrogation permet de faire des recherches dans le texte
standardisé et d'afficher les SMS originaux qui contiennent des
variantes graphiques du mot recherché ;

- recherches croisées possibles : recherche linguistique limitée aux
auteurs répondant à certains critères sociolinguistique ;

- les données sont disponibles dans différents formats (texte brut ou
format tabulaire).

NOTE : La licence diffusée par les Presses universitaires de Louvain  
est réservée aux usages non commerciaux. Pour tout autre usage ou  
pour des questions précises sur cette licence, merci de nous  
contacter directement.

** Référence bibliographique du corpus **
Fairon C., Klein J. et Paumier S. (2006), "Le Corpus SMS pour la
science. Base de données de 30.000 SMS et logiciel de consultation",
CD-Rom, Presses universitaires de Louvain, Louvain-la-Neuve. Cahiers
du Cental, 3.2.

** Pour en savoir plus **
- C. Fairon, S. Paumier (2006). "A translated corpus of 30,000 French  
SMS". In Proceedings of LREC 2006. Genova.
- C. Fairon, J.R. Klein, S. Paumier (2006). "Le langage SMS :  
révélateur d'1compétence". In J.-J. Didier, O. Hambursin, Ph. Moreau,  
M. Seron (éds). "Le français m'a tuer". Actes du colloque  
L'orthographe française à l'épreuve du supérieur. Presses  
universitaires de Louvain, Louvain-la-Neuve (Cahiers du Cental 1):  
33-42.

Voir également :
http://www.smspourlascience.be/
http://cental.fltr.ucl.ac.be/cahiers
http://www.i6doc.com/doc/smscd




-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list