Sujet de these: Communiquer par SMS, Grenoble

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sun May 19 08:37:29 UTC 2013


Date: Thu, 16 May 2013 02:37:41 +0200
From: "Antoniadis" <georges.antoniadis at u-grenoble3.fr>
Message-ID: <000601ce51cd$94882920$bd987b60$@u-grenoble3.fr>

Proposition de thèse en TAL/informatique

Lieu: Grenoble, France

Début: Octobre 2013

Durée: 3 ans

Financement: Région Rhône-Alpes, ARC « TIC et usages informatiques
innovants », 1680 euros brut par mois

Titre: Communiquer par SMS : Analyse automatique du langage et
extraction de l’information véhiculée.

Directeurs: Georges Antoniadis (laboratoire LIDILEM, Grenoble) -
Matthieu Quignard (laboratoire ICAR, Lyon)

Depuis le 3 décembre 1992, date d’envoi du premier SMS (Short Message
Service) par Neil Papworth, employé d’une société informatique
britannique, ce mode de communication est devenu rapidement courant et
familier pour une très grande partie de la population mondiale. En 2011,
plus de 4000 milliards de SMS auraient été envoyés dans le monde. En
France, l’utilisation du SMS est en forte progression les 10 dernières
années : 3,5 milliards de SMS envoyés en 2001, 147,2 milliards en 2011,
et 89,8 milliards pour les 6 premiers mois de 2012 (Fédération Française
des Télécoms, http://www.fftelecoms.org).

L’objectif de cette thèse est d’étudier le langage SMS français et de
construire un système pour l’extraction automatique des informations
contenues dans les SMS. L’élaboration d’un tel système passe par la
définition et la mise en œuvre des méthodes et procédures issues du
traitement automatique des langues (TAL). Le point de départ sera
l’étude et l’exploitation du corpus de 22000 SMS réels, collectés dans
les Alpes, avec l’aide du Conseil Général des Hautes-Alpes.

Le projet prend appui sur les connaissances et outils du laboratoire
LIDILEM de Grenoble concernant la conception et l’exploitation de corpus
langagiers ainsi que de systèmes pour le traitement automatique des
langues et ses applications, en particulier l’extraction
d’informations. Dans le cadre de cette thèse ils seront couplés avec
l’expertise du laboratoire ICAR concernant l’étude et l’exploitation du
contenu des corpus langagiers. Le Pôle Innovation Viseo de l’entreprise
Objet Direct de Grenoble, et sa responsable Mme Frédérique SEGOND, est
partenaire du projet ; il apportera son expertise en génie logiciel et
TAL, et s’intéresse aux applications de l’outil d’extraction
d’informations contenues dans les SMS.

Description du sujet:

Une opération de collecte de SMS dans les Alpes, organisée dans le cadre
du projet sms4science et avec l’appui du Conseil Général des
Hautes-Alpes, a permis de constituer un corpus de 22000 SMS réels. Les
SMS collectés ont été anonymisés et transcrits en français.

Le sujet proposé a comme point de départ l’exploitation des données de
ce corpus.

L’objectif visé par cette thèse est double :

a) Etudier la structure du langage SMS français et élaborer un analyseur
   capable d’enrichir automatiquement le texte des SMS par des
   informations morphosyntaxiques et sémantiques, associées.

b) Elaborer une méthodologie et un système pour l’extraction des
   informations pertinentes contenues dans les SMS.

La méthodologie à mettre en œuvre pour le premier objectif, prend appui
sur la problématique du traitement automatique des langues, ses
procédures et ses techniques. Elles doivent néanmoins être adaptées pour
la structuration particulière du langage SMS, et être optimisées en ce
sens. Les résultats attendus pourront être utilisés pour bon nombre
d’applications embarquées liées à l’écriture, la lecture et la gestion
des messages SMS.

L’extraction des informations pertinentes portées par les SMS, devrait
s’appuyer sur les résultats du premier objectif et expérimenter les
méthodes et procédures propres au domaine de la recherche
d’informations. L’écueil scientifique en ce sens a trait à la taille
réduite des SMS, ce qui rend difficile a priori la mise en œuvre de
méthodes purement statistiques.

L’évaluation des systèmes développés doit se faire avec les autres
partenaires du projet sms4science disposant d’un corpus de SMS réels.

Par essence, le problème à traiter demande une approche et une démarche
pluridisciplinaires. La démarche de travail envisagée s’appuie sur une
coopération multidisciplinaire (codirection de la thèse par des
chercheurs en informatique (traitement automatique des langues,
extraction d’informations) et science du langage (structuration et
formalisation de la langue, étude et exploitation de corpus
langagiers). Elle est multi-sites (les équipes de recherche étant
réparties sur Lyon et Grenoble) et intègre la participation active du
Pôle Innovation Viseo de l’entreprise Objet Direct (Grenoble) qui est
intéressé par les applications de l’extraction d’informations contenues
dans les SMS, et qui apporte son expertise en traitement automatique des
langues et génie logiciel.

Sur le plan de la conception du système d’analyse automatique du langage
des SMS, plusieurs applications sont envisageables : systèmes de
réduction/expansion des SMS, de transcription et de phonétisation des
SMS, systèmes de collecte et de diffusion d’informations, etc. Sur le
plan d’extraction d’informations des SMS, diverses utilisations sont
envisageables dans tout échange entre les particuliers et les
entreprises ou les administrations.

Profil du candidat:

Le candidat doit être titulaire d'un Master en informatique - traitement
automatique des langues ou équivalent. Maîtrise de la langue française
et anglaise.

Contexte:

Cette thèse interdisciplinaire sera réalisée sur deux laboratoires :
LIDILEM (Linguistique et Didactique des Langues Etrangères et
Maternelles, EA 609, université Stendhal de Grenoble,
http://w3.u-grenoble3.fr/lidilem/) et ICAR (Interactions, Corpus,
Apprentissages, Représentations, UMR 5191 CNRS, Lyon,
http://icar.univ-lyon2.fr/), avec l’appui du Pôle Innovation Viseo
(Grenoble, http://www.viseo.net/).

Candidature:

Envoyer un CV (avec le détail des cours et notes de Master), une lettre
de candidature, ainsi qu'une lettre de recommandation ou les coordonnées
d'au moins un référent universitaire aux adresses suivantes :

georges.antoniadis at u-grenoble3.fr

matthieu.quignard at ens-lyon.fr 

fsegond at objetdirect.com 

Date limite: Candidature avant le 23 juin 2013

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list