Cursus: Master Traitement automatique des langues (TAL), Paris 10 - Paris 3 - Inalco (Paris)
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Jun 5 14:45:35 UTC 2007
Date: Mon, 04 Jun 2007 17:56:05 +0200
From: Serge Fleury <serge.fleury at univ-paris3.fr>
X-url: http://tal.univ-paris3.fr/plurital/
X-url: http://tal.univ-paris3.fr/plurital/admin/BROCHURE-PLURITAL-2005-2008.pdf
---------------------------------------------------------------------
MASTER Traitement automatique des langues (TAL) Année 2007 - 2008
Université de Paris 10 - Université de Paris 3 - Inalco (Paris)
Responsable(s) :
Marcel CORI Courriel : mcori at u-paris10.fr
André SALEM Courriel : salem at msh-paris.fr
Monique SLODZIAN Courriel : salem mslodz at inalco.fr
Commission pédagogique :
Jean Michel Daube / Rachid Belmouhoub (INALCO)
Serge Fleury (Paris III)
Marcel CORI (Paris X)
Hypertoile du MASTER :
http://tal.univ-paris3.fr/plurital/
Brochure en ligne :
http://tal.univ-paris3.fr/plurital/admin/BROCHURE-PLURITAL-2005-2008.pdf
1 Objectifs généraux
Le traitement automatique de la langue et des textes fait appel à des
méthodes et des savoirs multiples. Il s¹agit de :
Disposer des pré-requis en linguistique : maîtriser les manipulations
débouchant sur des descriptions détaillées de faits de langue,
connaître les bases des grands domaines des sciences du langage
(phonétique et phonologie, morphologie, syntaxe et sémantique) ;
Connaître les bases de la recherche et extraction d¹information, de la
constitution et de la gestion de corpus et de ressources, y compris
multilingues : les corpus sont des mines d¹information pour une
description réaliste d¹emplois d¹une langue, les techniques de la
recherche et de l¹extraction d¹information permettent de rapatrier les
documents ou les parties de documents jugés pertinents pour un besoin
particulier ;
Exprimer les règles et les régularités à l¹¦uvre, par le biais des
grammaires formelles et des traitements quantitatifs pour savoir
passer d¹une description linguistique à une représentation plus
précise permettant son utilisation par des logiciels.
2 Objectifs d¹apprentissage
Les bases solides en linguistique sont complétées par des dimensions
plus spécifiques au traitement automatique des langues. La « matière »
des textes, c¹est-à-dire leur encodage informatique, est présentée, en
particulier les solutions qui ont été offertes pour la gestion des
différents systèmes d¹écriture. Est également analysé le « grain de la
voix » : les phénomènes propres à l¹oral (marqueurs de discours,
amorces et répétitions, parole superposée).
Les traitements automatiques de la langue associent des traitements
s¹appuyant sur des régularités constatées et des traitements reposant
sur des règles explicites. Les premiers, approximatifs mais robustes,
supposent des quantifications. Ce sont par exemple les principes des
moteurs de recherche qui calculent une ressemblance globale entre les
mots de la requête et les documents indexés. Les seconds, fins mais
fragiles, explicitent le savoir des locuteurs. La formation associe
alors les deux grandes familles de traitement. L¹analyse statistique
des données textuelles, la recherche et l¹extraction d¹information
relèvent de la première famille. La sémantique et la syntaxe formelles
de la seconde.
Les données textuelles supposent de maîtriser à la fois un « couteau
suisse » permettant de faire des opérations de formatage, des
nettoyages, des changements de caractères, d¹ajouter des étiquettes à
des mots en utilisant des dictionnaires, etc. Les langages de scripts
(Python, Perl, PHP) constituent de tels couteaux suisses. Par
ailleurs, les textes sont structurés (en parties, sous-parties,
bibliographie, index, notes, etc.). Cette structure est de plus en
plus explicite (par des balises par exemple en HTML). Il faut donc
savoir expliciter la structure quand c¹est nécessaire ou utiliser
cette structure quand elle est présente. C¹est l¹ensemble des
techniques et outils autour de XML.
Ces manipulations des documents nécessitent la connaissance de
l¹algorithmique, c¹est-à-dire le découpage raisonné d¹un problème en
modules articulés, ainsi que celle des structures de données
nécessaires (tables, arbres, graphes) ainsi que celle des bases de
données, qui permettent de stocker et de manipuler des connaissances
détaillées (dictionnaires).
Le travail sur des données textuelles sous forme électronique repose
souvent sur l¹association de compétences variées. Une part importante
de la formation prépare aux projets collectifs, avec la répartition
des tâches, la gestion des échéances et des rendus qu¹ils
impliquent. Les stages en laboratoire ou en entreprise contribuent à
ce volet de la formation. Le rapport de stage et sa soutenance sont
l¹occasion de manifester la compréhension du collectif dans lequel
s¹insère le stagiaire, des problèmes qu¹on lui demande de traiter, de
l¹apport qu¹il a pu effectuer.
3 Inscriptions validations d¹acquis
3.1 Inscription en 1ère année
L¹ étudiant devra être titulaire d¹une licence dans l¹une des mentions
ou spécialités suivantes : « Sciences du Langage » ; « Lettres » ; «
Langues, littératures et civilisations étrangères » ; « Sciences
humaines et sociales » ; « Psychologie » ; « Mathématiques appliquées
aux sciences sociales » ou d¹une bi-licence ou encore d¹une licence
inter-mentions ayant une composante de Sciences du langage (ex. «
Sciences du langage, civilisation européenne : langue » ; «
Lettres/sciences du langage »)
3.2 Inscription en 2ème année
L¹étudiant devra avoir validé au minimum un M1 « Sciences du langage »
à Paris III, Paris X ou dans une autre université européenne, il devra
en outre avoir suivi des enseignements en informatique ou effectuer
une mise à niveau. Toute demande qui ne remplirait pas cette
condition sera examinée par une commission de validation d¹acquis, qui
tiendra compte des ECTS en « Sciences du langage » obtenus par
l¹étudiant et de son parcours personnel.
4 Organisation pédagogique du MASTER
La formation proposée a été conçue comme devant mener progressivement
d¹une formation « généraliste » en TAL à une spécialité; il s¹agit au
cours de ce Master de donner aux étudiants qui auront confirmé leur
intérêt pour le Traitement Automatique des Langues les moyens les
moyens de maîtriser les outils indispensables à l¹activité de
recherche dans le domaine (modélisation syntaxique, exploration de
textes sur ordinateur, analyses quantitatives sur corpus de
textes...).
La mutualisation des compétences permet d'offrir aux étudiants dès la
première année du Master une large palette de savoirs et de savoir
faire, ces étudiants pourront ensuite choisir une des spécialités
offertes par une des 3 entités constituantes du Master (orientation
recherche ou professionnelle).
La première année du Master est organisé autour
* d¹un module "Linguistique"
* d'un module "TAL et ingénierie linguistique"
* d'un module " Informatique "
* d¹une langue vivante et d¹une unité libre
La seconde année est organisée autour
* d'un module "Linguistique et TAL »
* d¹un module "Linguistique"
* d¹un module « synthèses de conférences »
* d¹un travail de recherche (avec stage de 3 mois) donnant lieu à un
mémoire
* d¹une unité libre
* d¹une langue vivante
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list