Ressources: Corpus 88milSMS

Thierry Hamon hamon at LIMSI.FR
Sun Jul 20 20:23:09 UTC 2014


Date: Wed, 16 Jul 2014 06:13:20 +0200
From: Mathieu Roche <mathieu.roche at cirad.fr>
Message-Id: <4FF5E81F-2559-4FE1-B2E9-3511DC42FE68 at cirad.fr>
X-url: http://sud4science.org
X-url: http://88milsms.huma-num.fr/
X-url: http://www.sms4science.org/


Bonjour à tous,

Nous avons le grand plaisir de faire l'annonce suivante (voir en bas de
ce courriel).

Le projet sud4science (http://sud4science.org) a démarré en janvier
2011, et fait partie d'un grand projet international, sms4science
(http://www.sms4science.org), initié par des chercheurs belges (Cental,
UCL), en 2004.

Le corpus « 88milSMS » est diffusé à partir du 26 juin 2014. 

Il s'agit d'un grand corpus de SMS authentiques, anonymisés, en
français. Il est produit par l’Université Paul-Valéry Montpellier 3 et
le CNRS, en collaboration avec l’Université catholique de Louvain, et il
est financé grâce au soutien de la MSH-M et du Ministère de la Culture
(Délégation générale à la langue française et aux langues de France) et
avec la participation de Praxiling, Lirmm, Lidilem, Tetis, Viseo.

Nous avons obtenu l'accord pour le mettre à disposition sur la grille de
services d'Huma-Num. Les conditions d'utilisation et les téléchargements
s'effectuent ici : http://88milsms.huma-num.fr/

C'est un grand jour pour tous les membres du projet. Nous profitons de
ce message pour remercier nos institutions de recherche publique, nos
entreprises, nos services juridiques, nos laboratoires de recherche, nos
partenaires et nos 8 stagiaires étudiants qui ont travaillé tout au long
de ces dernières années avec nous.

Nous voudrions terminer ce message par des remerciements très appuyés au
service juridique de l'Université Paul-Valéry, le SAJI, dirigé par
Stéphanie Delaunay. Si le projet sud4science a pu aboutir sur le plan
juridique, et si nous pouvons mettre à disposition le corpus « 88milSMS
» aujourd'hui, c'est grâce à l'énorme investissement dans le projet par
tout le service, et, en particulier, par notre correspondant
Informatique et libertés (CIL), Nicolas Hvoinsky. Notre juriste-CIL
s'est montré très actif dès le début du projet en 2011 : participation à
nos séminaires scientifiques pour comprendre les enjeux du projet,
rédaction de très nombreux documents juridiques, échanges de centaines
de courriels, conseils sur l'anonymisation des SMS, réponses à nos
questions incessantes, etc. Le temps et l'énergie consacrés au projet,
et la patience à toute épreuve de Nicolas Hvoinsky ont très largement
contribué à la réussite de ce projet.

Comme dit précédemment, le corpus « 88milSMS » est diffusé à partirdu 26
juin 2014 et nous sommes ravis et fiers de pouvoir le mettre à
disposition de tous.

Bien cordialement,

Rachel Panckhurst, Catherine Détrie, Cédric Lopez, Claudine Moïse,
Mathieu Roche, Bertrand Verine.


----------
Annonce :
----------

Le corpus de SMS en langue française 88milSMS est disponible !

Conditions d’utilisation, téléchargements :
http://88milsms.huma-num.fr/ 

© Panckhurst R., Détrie C., Lopez C., Moïse C., Roche M., Verine
B. (2014) "88milSMS. A corpus of authentic text messages in French",
produit par l’Université Paul-Valéry Montpellier 3 et le CNRS, en
collaboration avec l’Université catholique de Louvain, financé grâce au
soutien de la MSH-M et du Ministère de la Culture (Délégation générale à
la langue française et aux langues de France) et avec la participation
de Praxiling, Lirmm, Lidilem, Tetis, Viseo.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list