Conf: TALN, Corpus et Web

Alexis Nasr alexis.nasr at LINGUIST.JUSSIEU.FR
Mon Nov 4 18:04:49 UTC 2002


                        ******************************
                        **                          **
                        **   APPEL A PARTICIPATION  **
                        **                          **
                        ******************************


                                TALN, Corpus et Web
                               26 et 27 novembre 2002
                Maison des Sciences de l'Homme, Saint-Denis, France


Le Web peut être considéré à la fois comme un champ d'étude, une ressource et une base de données.
Chacun de ces aspects fait appel à un domaine de la linguistique. Ces aspects liés au Web, en
particulier
francophone, feront l'objet d'un colloque qui se tiendra les 26 et 27 novembre, à la Maison des
Sciences
de l'Homme (Saint-Denis, RER B, arrêt Plaine St-Denis, 1ère station après la Gare du Nord)


Web et corpus
Il est possible d'assimiler le Web à un simple corpus linguistique. Cette conception du Web est
fondée sur
deux de ses principales caractéristiques. D'une part, il apparaît comme un fond documentaire
réellement
représentatif des langues contemporaines au regard de sa masse considérable (en expansion
perpétuelle),
de l'extrême variété de ses textes (tant sur le plan thématique que sur le plan stylistique) et de
la
diversité sociologique de ses utilisateurs. D'autre part, il s'agit d'un média spécifique sur plus
d'un
point, du fait de ses multiples fonctionnalités. Il en résulte de nouvelles pratiques qui, sur le
plan
linguistique, ont d'importantes répercussions.

L'utilisation du Web comme corpus soulève un certain nombre d'interrogations : le Web est-il
vraiment une
bonne source de données textuelles ? Ces données peuvent-elles servir de base à une étude
linguistique ?
Comment récupérer des données, quels sont les outils disponibles, comment traiter ces données, les
données
récupérées sont-elles - directement - exploitables ?

Web et analyse
Depuis quelques années, le traitement de l'information numérisée est en pleine évolution du fait des
limites
atteintes par les différents systèmes. Il n'est plus satisfaisant désormais d'assimiler les langues
naturelles
à de simples assemblages de chaînes de caractères à partir desquelles sont effectuées des opérations
de nature
essentiellement statistique. Dans la perspective du développement de systèmes plus performants, les
spécialistes en documentation automatique admettent généralement l'inanité des traitements en
surface des
documents et son corollaire, la nécessité de prendre en compte leur contenu linguistique. De ce
point de vue,
les chercheurs en TAL ont un rôle majeur à jouer.

Programme provisoire
--------------------
Mardi 26 octobre

9h30-10h        Accueil a la MSH
10h-11h         Franz Gunthner
11h-11h15       Pause
11h15-12h45
                Marc Antoniotti, Chrystel Million
                        « Une expérience de constitution d'un corpus de référence du français
contemporain
                        à partir du Web »
                Camal Tazine
                        « Création automatique de modèle de langage n-grammes depuis Internet par
une mesure
                        de distance »
12h45-14h30     Repas
14h30-16h       Nordine Fourour, Emmanuel Morin
                        « Apport du Web dans la reconnaissance des entités nommées »
                Nabil Hathout, Ludovic Tanguy
                        « Vers une autodétection des webnéologismes »
16h-16h15       Pause
16h15-17h45     Fiammetta Namer
                        « Web et morphologie : concevoir une base de données dérivationnelle à
partir de
                        corpus et outils en ligne »
                Nicolas Torzec
                        « Un corpus de messages électroniques particulier »

Mercredi 27 octobre

9h30-10h30      Jean-Marie Pierrel
10h30-11h       Pause
11h-12h30       Elmar Eggert, Denis Maurel, Odile Piton
                        « La formation des gentilés sur Internet »
                Farah Benamara, Patrick Saint Dizier
                        « Analyse et exploitation des données du Web par un extracteur dynamique de
                        connaissances »
12h30-14h15     Repas
14h30-16h       Pierre-André Buvet, Max Silberztein
                        « INTEX et la recherche d'informations »
                Christophe Fouqueré, Fabrice Issac

                Emmanuel Chieze, Louisette Emirkanian

Inscriptions
------------
Les frais d'inscription se montent à 20 Euros
Fiche d'inscription à télécharger sur le site Web

Comité de programme
-------------------
Lorne Bouchard (Département d'informatique, UQAM, Québec)
Louisette Emirkanian (Département de linguistique et de didactique des langues, UQAM, Québec)
Christophe Fouqueré (LIPN -Université Paris 13, France)
Gaston Gross (LLI -Université Paris 13, France)
Fabrice Issac (LLI -Université Paris 13, France)

Comité d'organisation
---------------------
Louisette Emirkanian (Département de linguistique et de didactique des langues, UQAM, Québec)
Christophe Fouqueré (LIPN -Université Paris 13)
Fabrice Issac (LLI -Université Paris 13)

Contact
-------
Courriel :       TCW2002 at lli.univ-paris13.fr
Web :            http://www-lli.univ-paris13.fr/index_main.php?top=colloques


L'organisation de ce colloque est soutenue par le ministère des Relations Internationales du
Québec et par le ministère des Affaires Etrangères de la France, dans le cadre de la coopération
France-Québec.

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list