appel à com. TALN2013 atelier MIXEUR méthodes mixtes pour l’analyse synt. & sém.

Christian christian.retore at LABRI.FR
Tue Feb 19 21:58:20 UTC 2013


APPEL A COMMUNICATIONS

MIXEUR

METHODES MIXTES
POUR L'ANALYSE SYNTAXIQUE ET SEMANTIQUE
DU FRANÇAIS

http://www.labri.fr/perso/retore/mixeur

Atelier TALN 2013
20e conférence sur le Traitement Automatique des Langues Naturelles
Les Sables d'Olonne, 21 juin 2013

CALENDRIER

- Date limite de soumission : 29 mars 2013
- Notification aux auteurs : 19 avril 2013
- Date limite de soumission des versions définitives : 3 mai 2013

PRÉSENTATION DU CHAMP THÉMATIQUE

Après des années de succès des méthodes quantitatives (statistiques, apprentissage) en traitement automatique des langues, on constate que les méthodes symboliques comme les grammaires formelles ou la logique sont tout aussi indispensables à certaines tâches de traitement automatique des langues. Réciproquement, les méthodes formelles peinent à passer à l'échelle sans que les probabilités viennent aider à lever les ambiguïtés, à faire certains choix et à rendre compte des préférences. L'analyse symbolique gagne aussi en rapidité à s'aider d'informations statistiques. L'objet de cet atelier est précisément de présenter des travaux actuels, sur l'analyse syntaxique et sémantique du français, qui combinent nouvellement méthodes symboliques et statistiques. Nous donnons ci-après quelques exemples de travaux pertinents :

      • En recherche d'information, ne pas traiter la négation et sa portée peut poser problème. S'il s'agit de détecter des catastrophes naturelles, un tweet comme « Il y a du vent, mais ce n'est pas un ouragan. » pourra être erronément interprété comme une catastrophe naturelle alors qu'il n'y en a pas

      • Si on se pose la question : « Geach était-il l'élève de Wittgenstein ? » il sera malaisé de répondre. Hormis Wikipédia, il y a peu de textes sur Geach, et une analyse profonde prenant en compte négation et anaphores est requise pour inférer la réponse à partir de :   « Bien qu'il n'ait jamais suivi l'enseignement académique de ce dernier, cependant il en éprouva fortement l'influence. »

      • Après des années de traduction automatique symbolique, la traduction automatique statistique, basé sur des alignements bilingues, est devenue tellement efficace qu'on en a oublié le triangle de Vauquois (analyse de la langue source, langage pivot, génération dans la langue cible). Néanmoins, l'utilisation simultanée de règles, par exemple l'utilisation de grammaires d'arbres probabiliste ou l'utilisation de statistiques dans l'analyse et la génération constituent des directions actuelles et prometteuses.

     • Dans une tâche de reconstruction d'itinéraires à partir de récits de voyages la recherche d'information peut permettre de trouver les paragraphes pertinents, mais il faut ensuite une analyse syntaxique et sémantique profonde pour inférer le chemin suivi à partir de phrases comme : « Le chemin pavé de calcaire et de pierres luisantes (...) serpente à travers fourrés de buis et de noisetiers. Puis, cinq minutes nous conduisent à un petit pont (...) qui nous porte sur la rive droite.»

      • Les problèmes relatifs à la gradience syntaxique, notamment l'association d'une structure syntaxique cohérente à un énoncé non-canonique (shallow parsing, robust parsing, forêt  d'analyses partielles, correction grammaticale, etc.), ou la pondération de contraintes grammaticales, sont abordés tant par des approches quantitatives, que par des approches symboliques. Les techniques d'approximation qui sous-tendent ces deux approches sont de natures différentes, et gagneraient à être combinées.

      • Les grammaires syntaxiques (et syntaxico-sémantiques) sont souvent acquises automatiquement à partir de corpus annotés avec ou sans statistiques. Elles comportent alors un grand nombre de catégories, d'arbres, de graphes par mot. Il est donc quasi obligatoire de ne pas analyser la phrase avec toutes les assignations possible de catégories, mais seulement avec les plus probables dans le contexte de la phrase. Le gain en complexité est flagrant, il peut être divisé par quarante !

      • La sémantique distributionnelle, par vecteurs de mots issus de fréquences en corpus ou dans les dictionnaires, permet de lever les ambiguïtés syntaxiques et sémantiques de portées, de rattachement prépositionnel, de sens lexical
 Elle se rapproche ainsi de la sémantique compositionnelle, qu'elle vient optimiser en suggérant des préférences pour analyser des rattachements prépositionnels « Il regarde la fille avec des lunettes noires. / Il écoute la fille avec des lunettes noires. / Il regarde la route avec des lunettes noires. » ou choisir un sens lexical « Cet avocat était véreux. Il a ruiné son client sans le défendre. / Cet avocat était véreux. Tu n'aurais pas dû le mettre dans la salade. »

Les travaux devront apporter un élément nouveau, que ce soit un modèle symbolique qui se trouve inhabituellement enrichi de techniques statistiques, ou que les méthodes statistiques soient étendues à des structures jusqu'ici ignorées d'elles, ou encore qu'on mette en oeuvre un modèle mixte n'ayant jamais été utilisé en linguistique informatique. A titre d'exemple, l'acquisition sur corpus annoté d'une grammaire hors contexte probabiliste et la mesure de sa couverture sont considérées comme trop connues pour être présentées à cet atelier.

Cet atelier est ouvert à tous les travaux novateurs mêlant approches statistiques et méthodes symboliques dans l'analyse syntaxique et sémantique du français, les exemples ci-dessus ne sont mentionnés qu'à titre indicatif.

LANGUE

A priori, l'utilisation de méthodes mixtes est indépendant de la langue. Cependant nous ne considérerons que les articles proposant un traitement automatique qui puisse s'appliquer à la syntaxe ou à la sémantique du français.

Les non francophones qui le souhaitent peuvent soumettre un article en anglais.


TYPES DE COMMUNICATIONS

Les articles seront rédigés en français pour les francophones, en anglais pour ceux qui ne maîtrisent pas le français. Ils devront suivre le format de TALN 2013 et comprendront 8 à 10 pages.  Une feuille de style LaTeX et un modèle Word sont disponibles sur le site web de la conférence (http://www.taln2013.org/soumettre/). Les articles retenus donneront lieu à une présentation orale, dont la durée sera communiquée lors de l'acceptation.

CRITÈRES DE SÉLECTION

Les critères de sélection sont les mêmes que ceux définis par TALN 2013 pour les articles de recherche.

MODALITÉS DE SOUMISSION

Les articles, au format pdf, doivent être déposés sur easychair à l'adresse 
https://www.easychair.org/conferences/?conf=mixeur1 

COMITE :
Laurence Danlos (Université Paris 7 et INRIA)
Richard Moot (CNRS LaBRI)
Jean-Philippe Prost (Université Montpellier II et LIRMM)
Christian Retoré (Université Bordeaux 1, IRIT et LaBRI) responsable
Tim Van de Cruys (CNRS IRIT)

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20130219/07be56e7/attachment.htm>


More information about the Parislinguists mailing list