[Corpora-List] appel à communication pour la r evue TAL

Thu Apr 9 08:09:04 UTC 2009

Apprentissage automatique pour le TAL

La revue TAL (http://www.atala.org/-Revue-TAL) lance un appel à 
contribution sur le sujet de l'apprentissage automatique pour le TAL. 
L'apprentissage automatique (ou apprentissage artificiel) est l'étude 
des algorithmes qui permettent aux programmes de s'améliorer 
automatiquement par expérience (définition de Tom Mitchell dans son 
livre "Machine Learning"). Le domaine a connu ces dernières années un 
développement considérable, et ses interactions avec le TAL sont de plus 
en plus étroites et fréquentes.

Du côté des linguistes, les intérêts de ce rapprochement sont nombreux. 
En effet, la constitution manuelle de ressources est en général longue 
et coûteuse, et doit être recommencée pour chaque langue différente, et 
pour chaque sous-domaine spécifique d'une langue. L'apprentissage 
automatique offre une alternative séduisante, en permettant d'obtenir ou 
d'améliorer à moindre frais de telles ressources, et de s'assurer 
qu'elles sont robustes et à large couverture. La démarche inductive, 
employée depuis longtemps en linguistique de corpus, peut ainsi être 
opérationnalisée à grande échelle, et ses résultats testés de façon 
systématique. Quant aux théories formelles de l'apprentissage, elles 
contribuent aussi à alimenter le débat sur l'acquisition des langues 
naturelles, récurrent depuis les années 50.

De leur côté, les spécialistes de l'apprentissage automatique voient 
dans le TAL un domaine d'application privilégié, pourvoyeur de problèmes 
nombreux et difficiles, et de données en grande quantité. Mais la 
prudence est souvent de mise quant à l'interprétabilité des résultats 
obtenus. Les méthodes employées sont de plus en plus fondées sur des 
mathématiques raffinées, réservées aux spécialistes : dans ce contexte, 
la linguistique a-t-elle encore son mot à dire ? Quelle confiance un 
linguiste peut-il accorder au résultat d'un programme d'apprentissage 
automatique ?

La revue TAL consacre un numéro aux relations entre apprentissage 
automatique et traitement de la langue, particulièrement dans sa 
dimension textuelle. Au delà de compte-rendus d'expériences visant à 
appliquer telle méthode d'apprentissage automatique à tel domaine de la 
linguistique, nous souhaitons encourager une réflexion plus large sur 
les enjeux théoriques et méthodologiques de la démarche. Quelle que soit 
l'approche décrite, un effort devra donc être fait pour expliciter les 
hypothèses tant linguistiques qu'informatiques des techniques mises en 
oeuvre.

Les approches de l'apprentissage automatique choisies peuvent être :
- théoriques, liées à l'apprenabilité/non apprenabilité suivant des 
critères formels de classes d'objets
- empiriques, s'appuyant sur un protocole expérimental exploitant des 
données annotées (apprentissage supervisé) ou non annotées 
(apprentissage non supervisé)

Les méthodes d'apprentissage mises en oeuvre peuvent être :
- symbolique (inférence grammaticale, PLI...)
- à base de modèles probabilistes (génératifs ou discriminants)
- à base de similarités (voisinages, analogie, "memory-based learning"...)

Les domaines d'applications peuvent être :
- l'acquisition ou l'amélioration de ressources linguistiques (y compris 
: automates, grammaires, cadres de sous-catégorisations, ontologies de 
concepts...)
- l'analyse de la parole
- l'annotation de corpus (étiquetage lexical, syntaxique, fonctionnel, 
thématique, sémantique...)
- le clustering et la classification de textes (suivant différents 
critères possibles : auteur, contenu, opinion...)
- la recherche d'information
- l'extraction d'information (y compris : extraction et typage des 
entités nommées)
- les systèmes questions/réponses
- le résumé automatique
- la traduction automatique

rédacteurs en chef :

Isabelle Tellier, LIFO, Université d'Orléans
Mark Steedman, ICCS, Université d'Edimbourg, Ecosse

Modalités pratiques :

Les articles sont écrits en français ou en anglais. Les soumissions en 
anglais ne sont acceptées que pour les auteurs non francophones. Les 
articles (maximum 25 pages, format PDF) seront envoyés à l’adresse 
suivante: (isabelle point tellier at univ tiret orleans point fr). Les 
feuilles de style sont disponibles en ligne sur le site de la revue à 
l’adresse suivante http://atala.org/Instructions-aux-auteurs-feuilles

Calendrier prévisionnel :

- 24/05/2009 Date limite de soumission.
- 15/07/2009 Première decision du comite de rédaction.
- 08/08/2009 Version révisée.
- 15/09/2009 Décision finale du comité de rédaction.
- Décembre 2009 Parution

comité de lecture spécifique :

- Pieter Adriaans, HSC Lab, Université d'Amsterdam, Pays-Bas
- Walter Daelemans, CNTS, Université d'Anvers, Belgique
- Pierre Dupont, Université Catholique de Louvain, Belgique
- Alexander Clark, Royal Holloway, Université de Londres, Grande-Bretagne
- Hervé Dejean, Xerox Center, Grenoble
- Colin de la Higuera, Laboratoire Hubert Curien, Université de St Etienne
- François Denis, LIF, Université de Marseille
- Patrick Gallinari, LIP6, Université de Paris 6
- Cyril Goutte, Conseil National de Recherches, Canada
- Richard Moot, CNRS, Bordeaux
- Emmanuel Morin, LINA, Université de Nantes
- Jose Oncina, PRAI Group, Université d'Alicante, Espagne
- Pascale Sébillot, IRISA, INSA Rennes
- Marc Tommasi, LIFL-Inria, Université de Lille
- Menno van Zaanen, ILK, University of Tilburg, Pays-Bas
et peut-être quelques autres...

*************************

Machine Learning for NLP

The revue TAL (http://www.atala.org/-Revue-TAL) proposes a call for 
papers on the subject of "Machine Learning for NLP". Machine Learning is 
the study of algorithms that allow computer programs to automatically 
improve through experience (definition proposed by Tom Mitchell in his 
"Machine Learning" book). This domain has drastically increased in the 
last few years, and its interactions with NLP are more and more tight 
and frequent.

 From a linguistic point of view, the interests for this evolution are 
numerous. As a matter of fact, manually built resources are 
time-consuming and expensive, and the process must be started again for 
each distinct language and each distinct sub-domain of a language. 
Machine Learning offers an attractive alternative, allowing to obtain or 
improve at a lower cost such a resource, with better guaranties of 
robustness and coverage. The inductive approach, used for a long time in 
the "corpus linguistic" community, can now be operationalized at a large 
scale, and its results be rigorously tested. And formal theories of 
learning also contribute to the long-standing debate about natural 
language acquisition.

 From a Machine Learning point of view, NLP is a rich application domain 
where problems are numerous and difficult, and for which many data are 
usually available. But the interpretability of the obtained results is 
often problematic. More and more subtle specialist-reserved mathematical 
device are used : in this context, is linguistics still useful ? What 
confidence can a linguist have on the result of a Machine Learning system ?

A number of the electronic review TAL will be dedicated to this theme. 
Beyond reports about yet another experiment applying a special Machine 
Learning method on a special linguistic task, more general theoretical 
and methodological reflexions are encouraged. For each contribution and 
each method used, a special effort should be made to clarify what are 
the linguistic as well as computational underlying hypotheses.

The Machine Learning approach considered can be :
- either theoretical, concerning learnability/non learnability results 
for classes of objects, with respect to formal criteria
- either empirical, based on an experimental protocol exploiting 
annotated (in the case of supervised learning) or not annotated (in the 
case of non supervised learning) data

The methods used can be :
- symbolic (grammatical inference, ILP...)
- based on probabilistic (either generative or discriminative) models
- based on similarities (neighboring, analogy, memory-based learning...)

Application domains can be :
- acquisition or improving of resources (including automata, grammars, 
sub-categorisation frames, concept-based ontologies...)
- speech analysis
- corpus labeling (either lexical, syntactic, functional, thematic, 
semantic...)
- clustering and classification of texts (according to various possible 
criteria : author, content, opinion...)
- information extraction (including : extraction and typing of named 
entities)
- question/answering systems
- automatic summary
- automatic translation

editors in chief :

Isabelle Tellier, LIFO, University of Orléans
Mark Steedman, ICCS, University of Edinburgh, Scotland

Practical issues:

Contributions (25 pages maximum, PDF format) must be sent by e-mail to 
the following address: (isabelle dot tellier at univ dash orleans dot fr)
Style sheets are available at the following address: 
http://www.atala.org/English-style-files.
Language: manuscripts may be submitted in English or French. 
French-speaking authors are requested to submit in French.

Important dates
- 24/05/2009 Deadline for submission.
- 15/07/2009 Notification to authors.
- 08/08/2009 Deadline for submission of a revised version.
- 15/09/2009 Final decision.
- December 2009 publication on line.

scientific commitee :

- Pieter Adriaans, HSC Lab, University of Amsterdam, Netherlands
- Walter Daelemans, CNTS, University of Anvers, Belgium
- Pierre Dupont, university of Louvain, Belgium
- Alexander Clark, Royal Holloway, University of London, Great-Britain
- Hervé Dejean, Xerox Center, Grenoble
- Colin de la Higuera, Laboratoire Hubert Curien, University of St Etienne
- François Denis, LIF, University of Marseille
- Patrick Gallinari, LIP6, University of Paris 6
- Cyril Goutte, National Research Council, Canada
- Richard Moot, Labri/CNRS, Bordeaux
- Emmanuel Morin, LINA, University of Nantes
- Jose Oncina, PRAI Group, University of Alicante, Spain
- Pascale Sébillot, IRISA, INSA, Rennes
- Marc Tommasi, LIFL-Inria, University of Lille
- Menno van Zaanen, ILK, University of Tilburg, Netherlands
and maybe a few others...

_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora