Appel: Atelier taln 2013 methodes stats/symboliques: 4 pages -> 27 avril

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Apr 23 19:58:34 UTC 2013


Date: Mon, 22 Apr 2013 01:20:39 +0200
From: retore <christian.retore at labri.fr>
Message-Id: <4344F38A-FCC5-4B10-91E4-3F78ED537A57 at labri.fr>
X-url: http://www.labri.fr/perso/retore/mixeur/index.html


% merci de rediffuser à tout contributeur potentiel
MIXEUR méthodes mixtes pour l'analyse syntaxique et sémantique du
français (Les Sables d'Olonne, 21 juin 2013)


CALENDRIER
	- DATE LIMITE DE SOUMISSION : 27 AVRIL  2013
	- FORMAT 4 PAGES AU STYLE TALN
		- 1 page titre, résumé, mots-clefs en anglais et en
                  français, 2 pages de présentation, 1 page de
                  bibliographie
		- http://www.taln2013.org/soumettre/    
	- Notification aux auteurs : 3 mai 2013
	- Date limite de soumission des versions définitives : 10 mai
          2013
	- Un volume sera publié ultérieurement en sélectionnant des
          articles plus longs.
	- Plus de renseignements sur:
          http://www.labri.fr/perso/retore/mixeur/index.html

Cet atelier se veut avant tout un espace de travail, de débat et
d'échanges sur un thème à la fois porteur et encore trop peu exploré.  A
ce titre, les soumissions sous forme de prise de position, argumentaire
d'opinion, discussion de question ouverte, défrichage de problématique,
etc., sont particulièrement encouragées.


PRÉSENTATION DU CHAMP THÉMATIQUE

Après des années de succès des méthodes quantitatives (statistiques,
apprentissage) en traitement automatique des langues, on constate que
les méthodes symboliques comme les grammaires formelles ou la logique
sont tout aussi indispensables à certaines tâches de traitement
automatique des langues. Réciproquement, les méthodes formelles peinent
à passer à l’échelle sans que les probabilités viennent aider à lever
les ambiguïtés, à faire certains choix et à rendre compte des
préférences. L’analyse symbolique gagne aussi en rapidité à s’aider
d’informations statistiques. L’objet de cet atelier est précisément de
présenter des travaux actuels, sur l’analyse syntaxique et sémantique du
français, qui combinent nouvellement méthodes symboliques et
statistiques. Cet atelier sera aussi un forum où discuter des mérites
respectifs des méthodes statistiques et symboliques et de leur
enrichissement mutuel.

C'est pourquoi nous encourageons les exposés de prise de position,
surtout si elles s'appuient sur des questions particulières. 
Nous donnons ci-après quelques exemples de travaux où ces différentes
méthodes sont combinées. 

  - En recherche d’information, ne pas traiter la négation et sa portée
    peut poser problème. S’il s’agit de détecter des catastrophes
    naturelles, un tweet comme « Il y a du vent, mais ce n’est pas un
    ouragan. » pourra être erronément interprété comme une catastrophe
    naturelle alors qu’il n’y en a pas

  - Si on se pose la question : « Geach était-il l’élève de Wittgenstein
    ? » il sera malaisé de répondre. Hormis Wikipédia, il y a peu de
    textes sur Geach, et une analyse profonde prenant en compte négation
    et anaphores est requise pour inférer la réponse à partir de :   «
    Bien qu’il n’ait jamais suivi l’enseignement académique de ce
    dernier, cependant il en éprouva fortement l’influence. »

  - Après des années de traduction automatique symbolique, la traduction
    automatique statistique, basé sur des alignements bilingues, est
    devenue tellement efficace qu’on en a oublié le triangle de Vauquois
    (analyse de la langue source, langage pivot, génération dans la
    langue cible). Néanmoins, l'utilisation simultanée de règles, par
    exemple l'utilisation de grammaires d'arbres probabiliste ou
    l'utilisation de statistiques dans l'analyse et la génération
    constituent des directions actuelles et prometteuses.

 - Dans une tâche de reconstruction d’itinéraires à partir de récits de
   voyages la recherche d’information peut permettre de trouver les
   paragraphes pertinents, mais il faut ensuite une analyse syntaxique
   et sémantique profonde pour inférer le chemin suivi à partir de
   phrases comme : « Le chemin pavé de calcaire et de pierres luisantes
   (...) serpente à travers fourrés de buis et de noisetiers. Puis, cinq
   minutes nous conduisent à un petit pont (...) qui nous porte sur la
   rive droite.»

  - Les problèmes relatifs à la gradience syntaxique, notamment
    l'association d'une structure syntaxique cohérente à un énoncé
    non-canonique (shallow parsing, robust parsing, forêt d'analyses
    partielles, correction grammaticale, etc.), ou la pondération de
    contraintes grammaticales, sont abordés tant par des approches
    quantitatives, que par des approches symboliques. Les techniques
    d'approximation qui sous-tendent ces deux approches sont de natures
    différentes, et gagneraient à être combinées.

  - Les grammaires syntaxiques (et syntaxico-sémantiques) sont souvent
    acquises automatiquement à partir de corpus annotés avec ou sans
    statistiques. Elles comportent alors un grand nombre de catégories,
    d’arbres, de graphes par mot. Il est donc quasi obligatoire de ne
    pas analyser la phrase avec toutes les assignations possible de
    catégories, mais seulement avec les plus probables dans le contexte
    de la phrase. Le gain en complexité est flagrant, il peut être
    divisé par quarante !

  - La sémantique distributionnelle, par vecteurs de mots issus de
    fréquences en corpus ou dans les dictionnaires, permet de lever les
    ambiguïtés syntaxiques et sémantiques de portées, de rattachement
    prépositionnel, de sens lexical… Elle se rapproche ainsi de la
    sémantique compositionnelle, qu’elle vient optimiser en suggérant
    des préférences pour analyser des rattachements prépositionnels « Il
    regarde la fille avec des lunettes noires. / Il écoute la fille avec
    des lunettes noires. / Il regarde la route avec des lunettes
    noires. » ou choisir un sens lexical « Cet avocat était véreux. Il a
    ruiné son client sans le défendre. / Cet avocat était véreux. Tu
    n’aurais pas dû le mettre dans la salade. »

Les travaux devront apporter un élément nouveau, que ce soit un modèle
symbolique qui se trouve inhabituellement enrichi de techniques
statistiques, ou que les méthodes statistiques soient étendues à des
structures jusqu’ici ignorées d’elles, ou encore qu’on mette en oeuvre
un modèle mixte n’ayant jamais été utilisé en linguistique
informatique. A titre d’exemple, l’acquisition sur corpus annoté d’une
grammaire hors contexte probabiliste et la mesure de sa couverture sont
considérées comme trop connues pour être présentées à cet atelier.

Cet atelier est ouvert à tous les travaux novateurs mêlant approches
statistiques et méthodes symboliques dans l'analyse syntaxique et
sémantique du français, les exemples ci-dessus ne sont mentionnés qu'à
titre indicatif.  Nous encourageons les soumissions sous forme de prise
de position, argumentaire d'opinion, discussion de question ouverte,
défrichage de problématique, etc. : ce sujet neuf suscite le débat entre
deux communautés relativement distinctes.


LANGUE

A priori, l’utilisation de méthodes mixtes est indépendant de la
langue. Cependant nous ne considérerons que les articles proposant un
traitement automatique qui puisse s’appliquer à la syntaxe ou à la
sémantique du français.

Les non francophones qui le souhaitent peuvent soumettre un article en
anglais.


TYPES DE COMMUNICATIONS

Les articles seront rédigés en français pour les francophones, en
anglais pour ceux qui ne maîtrisent pas le français. Ils devront suivre
le format de TALN 2013 et comprendront 4 pages.  Une feuille de style
LaTeX et un modèle Word sont disponibles sur le site web de la
conférence (http://www.taln2013.org/soumettre/). Les articles retenus
donneront lieu à une présentation orale, dont la durée sera communiquée
lors de l’acceptation.

CRITÈRES DE SÉLECTION

Les critères de sélection sont les mêmes que ceux définis par TALN 2013
pour les articles de recherche.

MODALITÉS DE SOUMISSION

Les articles, au format pdf, doivent être déposés sur easychair à
l’adresse https://www.easychair.org/conferences/?conf=mixeur1


CALENDRIER

	- Date limite de soumission : 27 avril  2013
	- Format 4 pages au style TALN
		- 1 page titre, résumé, mots-clefs en anglais et en
                  français, 2 pages de présentation, 1 page de
                  bibliographie
		- http://www.taln2013.org/soumettre/    
	- Notification aux auteurs : 3 mai 2013
	- Date limite de soumission des versions définitives : 10 mai
          2013
	- Un volume sera publié ultérieurement en sélectionnant des
          articles plus longs.

COMITE :
Laurence Danlos (Université Paris 7 et INRIA)
Richard Moot (CNRS LaBRI)
Jean-Philippe Prost (Université Montpellier II et LIRMM)
Christian Retoré (Université Bordeaux 1, IRIT et LaBRI) responsable
Tim Van de Cruys (CNRS IRIT)
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list