Seminaire: INFOLINGU, Emmanuel Morin, 18 fevrier 2013, Universite Paris-Est Marne-la-Vallee

Sat Feb 16 20:17:29 UTC 2013

Date: Thu, 14 Feb 2013 18:31:14 +0100
From: Myriam RAKHO <rakho.myriam at gmail.com>
Message-ID: <CAOY-Mwv-wXeYuMwcre6wRZy_r4b_n0vZZzFk4RSqmYF-e=KJCQ at mail.gmail.com>

************************************************************************
INFOLINGU
Le séminaire de l'équipe Informatique Linguistique
du Laboratoire d'Informatique Gaspard Monge (LIGM)
Université Paris-Est Marne-la-Vallée

Date : Le Lundi 18 février 2013 à 10h30

Lieu : Université Paris-Est Marne-la-Vallée
Bâtiment Copernic, 4ème étage, salle de séminaires 4B08R

Toute personne intéressée est la bienvenue.
************************************************************************

*** Intervenant ***

Emmanuel MORIN
TALN, Université de Nantes

*** Titre de la présentation ***

Extraction de lexiques bilingues à partir de corpus comparables

*** Résumé de la présentation ***

L’extraction de lexiques bilingues à partir de corpus a initialement été
entreprise en considérant des corpus parallèles, c’est-à-dire des textes
en correspondance de traduction (Véronis, 2000).  Cependant, et en dépit
des bons résultats obtenus, ces corpus demeurent des ressources rares,
notamment pour les domaines spécialisés et pour des couples de langues
ne faisant pas intervenir l’anglais. Pour ces différentes raisons, les
recherches en extraction de lexiques bilingues se sont penchées sur une
autre sorte de corpus bilingue composé de documents partageant
différentes caractéristiques telles que le domaine, le genre, la
période... sans être en correspondance de traduction (Bowker & Pearson,
2002) : les corpus comparables.  Si les corpus comparables sont des
ressources bien plus abondantes que les corpus parallèles, les lexiques
bilingues extraits à partir de corpus comparables sont d’une qualité
bien inférieure à ce qui peut être obtenu à partir de corpus
parallèles. Cette différence s’explique principalement par l’absence
d’élément d’ancrage dans les corpus comparables (l’alignement préalable
de paragraphes, de cognats… n’est pas possible avec ce type de
corpus). Pour pallier cette difficulté plusieurs stratégies se dégagent
actuellement :

1. Améliorer la qualité des corpus comparables en termes de
   comparabilité pour améliorer la qualité des lexiques extraits
   (Sharoff, 2007) (Gœuriot, Grabar, & Daille, 2008), (Li & Gaussier,
   2010).

2. Agir sur les méthodes d’extraction de lexiques bilingues à partir de
   corpus comparables (Fung & McKeown, 1997) (Rapp, 1999) (Chiao &
   Zweigenbaum, 2002) (Déjean, Gaussier, & Sadat, 2002) (Morin E. ,
   Daille, Takeuchi, & Kageura, 2007) (Laroche & Langlais, 2010)
   (Prochasson & Fung, 2011)

3. Améliorer la qualité des résultats proposés par les techniques
   d’extraction de lexiques bilingues en tenant compte de leur contexte
   d’utilisation (Delpech, 2011).

Dans le cadre de cette présentation, nous reviendrons sur chacune de ces
stratégies pour présenter les dernières avancées et les prochains défis
à relever.  

Bibliographie

Bowker, L., & Pearson, J. (2002). *Working with Specialized Language: A
Practical Guide to Using Corpora.* London/New York: Routeledge.

Chiao, Y.-C., & Zweigenbaum, P. (2002). Looking for candidate
translational equivalents in specialized, comparable
corpora. *Proceedings of the 19th international conference on
Computational linguistics (COLING'02)*, (pp.  1208-1212). Taipei,
Taiwan.

Déjean, H., Gaussier, É., & Sadat, F. (2002). An approach based on
multilingual thesauri and model combination for bilingual lexicon
extraction. *Proceedings of the 19th International Conference on
Computational Linguistics (COLING'2002)*, (pp. 1-7). Taipei, Taiwan.

Delpech, E. (2011). Evaluation of terminologies acquired from comparable
corpora: an application perspective. *Proceedings of the 18th
International Nordic Conference of Computational Linguistics
(NODALIDA'11)*, (pp. 66-73).  Riga, Latvia.

Fung, P., & McKeown, K. (1997). Finding Terminology Translations from
Non-parallel Corpora. *Proceedings of the 5th Annual Workshop on Very
Large Corpora (VLC’97)*, (pp. 192-202). Hong Kong.

Gœuriot, L., Grabar, N., & Daille, B. (2008). Characterization of
scientific and popular science discourse in French, Japanese and
Russian. *Proceedings of the 6th International Language Resources and
Evaluation Conference (LREC'08).* Marrakech, Morocco.

Laroche, A., & Langlais, P. (2010). Revisiting context-based projection
methods for term-translation spotting. *Proceedings of the 23rd
International Conference on Computational Linguistics (COLING'2010)*,
(pp.  617-625). Beijing, China.

Li, B., & Gaussier, É. (2010). Improving corpus comparability for
bilingual lexicon extraction from comparable corpora. *Proceedings of
the 23rd International Conference on Computational Linguistics
(COLING'10)*, (pp.  644–652). Beijing, China.

Morin, E., Daille, B., Takeuchi, K., & Kageura, K. (2007). Bilingual
terminology mining—using brain, not brawn comparable
corpora. *Proceedings of the 45th annual meeting of the association for
computational linguistics (ACL’07)*, (pp. 664-671). Prague, Czech
Republic.

Prochasson, E., & Fung, P. (2011). Rare Word Translation Extraction from
Aligned Comparable Documents. *Proceedings of the 49th Annual Meeting of
the Association for Computational Linguistics (ACL'11)*,
(pp. 1327-1335).  Portland, Oregon, USA.

Rapp, R. (1999). Automatic Identification of Word Translations from
Unrelated English and German Corpora. *Proceedings of the 37th Annual
Meeting of the Association for Computational Linguistics (ACL’99)*, (pp.
519-526). College Park, Maryland, USA.

Sharoff, S. (2007). Classifying Web corpora into domain and genre using
automatic feature identification. *Proceedings of the 3rd Web as Corpus
Workshop*, (pp. 83-94). Louvain-la-Neuve, Belgique.

Véronis, J. (Éd.). (2000). *Parallel Text Processing.* Kluwer Academic
Publishers.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------