Sujet de these: Projection interlingue d'annotations linguistiques a partir de corpus paralleles et comparables, CEA LIST

Sun Jun 23 10:04:39 UTC 2013

Date: Wed, 19 Jun 2013 13:46:08 +0000
From: SEMMAR Nasredine 202247 <nasredine.semmar at cea.fr>
Message-ID: <50CC12289F0C854FBFF134F270030CD71C3D734E at EXDAG0-B2.intra.cea.fr>

[Version française] (English version below)

Le CEA LIST propose une allocation doctorale de recherche pour la
rentrée universitaire 2013.

Sujet de thèse : Projection interlingue d’annotations linguistiques à
partir de corpus parallèles et comparables

Lieu de la thèse : CEA Saclay Nano-INNOV, Laboratoire Vision et
Ingénierie des Contenus (LVIC), 91191 Gif-sur-Yvette

Encadrant : Nasredine Semmar, CEA LIST, Laboratoire Vision et Ingénierie
des Contenus (LVIC)

Directeur de thèse: Laurent Besacier, Université de Grenoble,
Laboratoire d’Informatique de Grenoble (LIG)

Le Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA LIST est
spécialisé en extraction et en recherche d’information multimédia et
multilingue.

Contexte et objectifs généraux de la thèse :
-----------------------------------------------------

L'annotation linguistique de ressources consiste à ajouter des
informations de nature interprétative aux données brutes originales
[Leech, 1997]. Ces informations peuvent être d'ordre terminologique,
lexical, morphologique, syntaxique ou sémantique et les ressources
linguistiques peuvent être des lexiques, dictionnaires, transcriptions
de dialogues ou corpus de textes [Véronis, 2000].

Les applications utilisant les ressources linguistiques annotées sont
nombreuses et diverses : recherche d'information interlingue, fouille de
textes, extraction d'informations, aide à la traduction, traduction
automatique, etc. C'est la raison pour laquelle, depuis quelques années,
la construction automatique de telles ressources est devenue un champ de
recherche important en Traitement Automatique de la Langue (TAL) [Hamon
et al., 2007] [Viprey et Léthier, 2008] [Mazziotta, 2010] [Bestgen,
2013]. La plupart des approches développées pour la construction de
ressources linguistiques annotées ont un objectif commun : minimiser le
coût de la production de telles ressources en supprimant l'intervention
humaine ou en la limitant à la seule tâche de validation et
d'évaluation. Le point commun de ces approches est de trouver et
d'explorer des mécanismes non (ou très peu) coûteux pour exploiter des
ressources linguistiques annotées déjà disponibles pour certaines
langues et des corpus parallèles pour produire de nouvelles ressources
annotées pour des langues faiblement dotées. C'est le cas des approches
qui s'appuient sur la projection interlingue d'annotations. Ces
approches partent d'un corpus parallèle dont les textes en langue source
sont déjà annotés, et proposent des annotations pour des textes en
langue cible à l'aide de techniques d'alignement. Ces approches
permettent de produire des ressources linguistiques adéquates à moindre
coût pour des langues peu dotées mais elles ouvrent également la voie à
des recherches sur l'extension multilingue d'outils de TAL
monolingues. Nous pourrons citer les travaux de Yarowsky et al (2001)
qui ont utilisé un corpus parallèle pour adapter des outils monolingues
(POS Taggers, chunkers et analyseurs morphologiques) à de nouvelles
langues. La projection entre langues a été réalisée en utilisant des
techniques d'alignement de mots entre les phrases du corpus
parallèle. Cette approche a été adaptée par Hwa et al. (2002) aux nivaux
grammatical et syntaxique pour faire une projection des informations
concernant les dépendances syntaxiques de l'anglais vers le
chinois. Feldman et al (2006) ont expérimenté la projection interlingue
à partir de corpus comparables pour transférer des étiquettes
morpho-syntaxiques entre le russe, le polonais et le
tchèque. L'annotation en allemand de rôles sémantiques par projection
interlingue à partir de la paire de langues anglais-allemand a été déjà
abordée par Pado et Lapata (2005) (2009). Pado et Pitel (2007) ont
évalué la généricité de cette approche du point de vue des langues en
l'appliquant à la paire anglais-français. Les résultats sont proches de
ceux obtenus pour l'allemand. Kim et al (2011) ont utilisé des
informations fournies par un aligneur de mots pour transférer les
entités nommées et leurs relations de l'anglais vers le coréen en vue de
la construction d'un corpus d'apprentissage pour un système d'extraction
d'information à partir du Web. Abdul Hay (2012) a utilisé les relations
sémantiques extraites par transitivité traductionnelle à partir de
corpus multilingue aligné pour la constitution d'une ressource
sémantique en arabe. Plus récemment, Jabaian (2012) s'est  intéressé à
la portabilité multilingue d'un système de compréhension de la parole en
proposant d'utiliser la traduction automatique afin de minimiser le coût
du développement d'un nouveau système de compréhension dans une nouvelle
langue (Jabaian et al., 2013).

Les approches de projection interlingue par alignement de mots affichent
des résultats satisfaisants en annotations lexicales et
morpho-syntaxiques pour les couples de langues voisines, mais il reste
plusieurs défis à relever pour les annotations syntaxiques et
sémantiques des langues à morphologie riche ou celles possédant des
syntagmes longs.

Cette thèse se situe dans le contexte de l'automatisation du processus
de construction de ressources linguistiques multilingues annotées par
projection interlingue. L'objectif est d'identifier des équivalences
terminologiques, morpho-syntaxiques, syntaxiques ou sémantiques à partir
de corpus de textes parallèles ou comparables. Deux processus
constituent un prérequis pour la projection interlingue d'annotations à
partir de corpus : un alignement au niveau des paragraphes, des phrases
ou d'unités lexicales de taille variable, et une analyse linguistique
pour l'annotation des textes en langue source.

Déroulement de la thèse :
-------------------------------

Le sujet de thèse proposé a pour but d'explorer et d'expérimenter de
nouvelles approches de projection interlingue d'annotations et se
propose d'aborder cette problématique selon les trois axes suivants,
dans le prolongement des travaux déjà réalisés au laboratoire LVIC :

- Utilisation d'approches statistiques et de recherche d'information
  interlingue pour la constitution de corpus de textes parallèles à
  partir de corpus comparables. Il s'agit de mesurer une certaine
  similarité entre les textes du corpus comparable afin d'identifier les
  textes contenant les mêmes phrases.

- Constitution de lexiques multilingues en développant de nouvelles
  approches d'alignement de mots simples, mots composés et expressions à
  partir de corpus textes comparables.

- Développement d'un modèle de projection interlingue d'annotations
  terminologiques, morpho-syntaxiques, syntaxiques et sémantiques
  indépendant de la langue.

Le laboratoire LVIC du CEA LIST dispose d'une plate-forme modulaire de
traitement des langues, LIMA (Besançon et al., 2010), permettant de
réaliser une analyse linguistique jusqu'au niveau syntaxique et
intégrant certaines analyses sémantiques et discursives. Le doctorant
réalisera son travail en s'appuyant sur cette plate-forme et bénéficiera
des travaux déjà réalisés au niveau du laboratoire en alignement de mots
simples, mots composés et d'expressions multi-mots à partir de corpus de
textes parallèles (Semmar et Laib, 2010) et comparables (Bouamor et al.,
2013).

Références bibliographiques :
------------------------------------

- ABDUL HAY A. (2012). Constitution d'une ressource sémantique arabe à
  partir de corpus multilingue aligné. Thèse de doctorat en informatique
  et sciences du langage, Université de Grenoble, France.

- BESANÇON R., DE CHALENDAR G., FERRET O., GARA F., LAIB M., MESNARD O.,
  SEMMAR N. (2010). LIMA: A multilingual framework for linguistic
  analysis and linguistic resources development and evaluation. LREC
  2010, Malta.

- BESTGEN Y. (2013). Construction automatique de ressources lexicales
  pour la fouille d'opinion : extension aux n-grammes. Dixième édition
  de la COnférence en Recherche d'Information et Applications, CORIA
  2013.

- BOUAMOR D., SEMMAR N., ZWEIGENBAUM P. (2013). Similarité sémantique
  pour l'extraction de lexiques bilingues à partir de corpus
  comparables. TALN 2013.

- FELDMAN A., HANA J., BREW C. (2006). Experiments in Cross-Language
  Morphological Annotation Transfer. A. Gelbukh (Ed.): CICLing 2006.

- HAMON T., DERIVIERE J., NAZARENKO A. (2007). OGMIOS : une plate-forme
  d'annotation linguistique de collection de documents issus du
  Web. TALN 2007.

- HWA R., RESNIK P., WEINBERG A., KOLAK O. (2002). Evaluation
  translational correspondence using annotation projection. ACL 2002,
  392—399, Philadelphia, USA.

- JABAIAN B. (2012). Systèmes de compréhension et de traduction de la
  parole : vers une approche unifiée dans le cadre de la portabilité
  multilingue des systèmes de dialogue. Thèse de doctorat en
  informatique, Université d'Avignon et des Pays de Vaucluse, France.

- JABAIAN B., BESACIER L., LEFEVRE F. (2013). Comparison and Combination
  of Lightly Supervised Approaches for Language Portability of a Spoken
  Language Understanding System. IEEE Transactions on Audio, Speech &
  Language Processing, 21(3):636-648, 2013.

- KIM S., JEONG M., LEE J., LEE G. G. (2011). A Cross-lingual Annotation
  Projection-based Self-supervision Approach for Open Information
  Extraction. 5th International Joint Conference on Natural Language
  Processing, 2011.

- LEECH G. (1997). Introduction corpus annotation. Garside, R., Leech,
  G., McEnery, A., (Eds.), Corpus annotation: Linguistic information
  from computer text corpora. London: Longman, 1 :18.

- PADÓ S., LAPATA M. (2005). Cross-lingual projection of role-semantic
  information. HLT/EMNLP 2005, Vancouver, Canada.

- PADÓ S., LAPATA M. (2009). Cross-lingual Annotation Projection of
  Semantic Roles. Journal of Artificial Intelligence Research 36,
  307-340.

- PADÓ S., PITEL G. (2007). Annotation précise du français en sémantique
  de rôles par projection cross-linguistique. TALN 2007, Toulouse,
  France.

- MAZZIOTA N. (2010). Logiciel NotaBene pour l'annotation linguistique
  Annotations et conceptualisations multiples. RECHERCHES QUALITATIVES,
  Hors Série numéro 9, pages 83-94.

- SEMMAR N., LAIB M. (2010). Using a Hybrid Word Alignment Approach for
  Automatic Construction and Updating of Arabic to French Lexicons. LREC
  2010, Malta.

- VERONIS J. (2000). Annotation automatique de corpus : panorama et état
  de la technique. Chapitre 4, Editions Hermès, 2000.

- VIPREY J. M., LETHIER V. (2008). Annotation linguistique de corpus :
  vers l'exhaustivité par la convivialité. 9es Journées internationales
  d'Analyse statistique des Données Textuelles, JADT 2008.

- YAROWSKY D., NGAI G., WICENTOWSKI R. (2001). Inducing multilingual
  text analysis tools via robust projection across aligned corpora. HLT
  2001, pp. 161—168, San Francisco, USA.

Conditions sur les candidatures et Profil recherché:
--------------------------------------------------------------

- Age : moins de 26 ans à la date de recrutement;
- Diplôme de Master Recherche ou équivalent en informatique ;
- Compétences en informatique (Linux, C++, Perl, etc.);
- Connaissances en traitement automatique de la langue et en statistique
  souhaitées.

Modalité de dépôt de candidature :
-------------------------------------------

Les candidatures (CV + Lettre de motivation + Lettres de recommandation
+ Relevé de notes depuis le Bac) sont à envoyer le plus rapidement
possible à Nasredine Semmar (nasredine.semmar at cea.fr) et Laurent
Besacier (laurent.besacier at imag.fr).

Contacts pour plus d'information :
Nasredine Semmar, Email:
nasredine.semmar at cea.fr, Tél: +33 (0)1 69 08 01 46

[English version]

Funded PhD position, CEA LIST, Laboratoire Vision et Ingénierie des
Contenus (LVIC), France

The Vision and Content Engineering Laboratory (LVIC) of the CEA LIST,
France, is looking for a PhD student to work in the area of building
annotated multilingual linguistic resources. The LVIC is specialized in
multilingual and multimedia information extraction and retrieval.

Thesis title: Cross-language projection of linguistic annotations using
parallel and comparable corpora

Thesis subject:
------------------

Annotating corpora with linguistic information (part-of-speech tagging,
sense tagging, syntactic analysis, named entity identification, semantic
role annotation) involves significant human efforts. The availability of
parallel corpora and some resource-rich languages (such as English which
has large amounts of annotated corpora and several analysis tools
available) has recently led to several research works in order to
project linguistic annotations from the resource-rich source language to
a target language with less resources. The goal of cross-language
projection is, on the one hand, to provide all languages with linguistic
annotations, and on the other hand, to automatically induce text
analysis tools for these languages.

Scientific challenges of cross-language projection of linguistic
annotations from parallel corpora are related to the results of word
alignment tools and the syntactic divergences of the source and target
languages. Indeed, each word of the source language can map to single,
multiple, or zero words in the target language, and part-of-speech
tagsets for source and target language may be different. Many efforts
have been developed to project linguistic annotations from resource-rich
languages to other languages but most of them have only explored
approaches applying one-to-one mapping.

This thesis falls within the scope of automating the process of building
annotated multilingual linguistic resources. The main purpose in this
process is to identify lexical, syntactical and semantic equivalences
across parallel or comparable corpora.

The proposed subject aims to explore and experiment new approaches for
language-independent projection for linguistic resources construction
and annotation. It proposes to tackle this issue based on the following
areas:

- Constitution of aligned sentences and sub-sentences from comparable
  corpora using statistical and cross-language information retrieval
  approaches.

- Building bilingual lexicons of single words and multiword expressions
  using word alignment.

- Exploring rule-based, heuristic-based and hybrid approaches for
  mapping linguistic annotations using parallel corpora.

Candidate profile: The successful candidate must be at greatest 26 years
old by December 2013, will have a Master's degree (or equivalent
qualification) in Computer Science with a good background in
Computational Linguistics.

Please send a CV, a cover letter, letters of recommendation and report
card to:
Nasredine Semmar (nasredine.semmar at cea.fr) and Laurent Besacier
(laurent.besacier at imag.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------