Stage: Translitteration des noms propres pour l'extraction d'entites nommees, IRT SystemX

Thierry Hamon hamon at LIMSI.FR
Sat Mar 22 15:00:06 UTC 2014


Date: Wed, 19 Mar 2014 13:50:19 +0000
From: SEMMAR Nasredine 202247 <nasredine.semmar at cea.fr>
Message-ID: <50CC12289F0C854FBFF134F270030CD71C4DF460 at EXDAG0-B2.intra.cea.fr>

Proposition de stage : Translittération des noms propres pour
l’extraction d’entités nommées

Lieu du stage : IRT SystemX, 8 avenue de la Vauve, 91190 Palaiseau

CONTEXTE :

L’IRT SystemX est un institut de R&D thématique interdisciplinaire
rassemblant les compétences de l’industrie et de la recherche publique
dans une logique de co-investissement public-privé : Alstom, Bull,
Campus Paris-Saclay, INRIA, Institut Mines Telecom, Kalray, OVH,
Renault, Sherpa, Systematic Paris-Region en sont les fondateurs. Les IRT
s’inscrivent dans le cadre du Programme Investissements d’Avenir.

Au sein de SYSTEMX, vous serez intégré dans l’équipe de l’un des projets
de recherche : Intégration Multimédia Multilingue (IMM).

Le projet IMM réunit des acteurs du monde académique (CEA, CNRS-LIMSI,
INRIA, LNE, UPMC-LIP6), des industriels (Bertin Technologie, CapGemini,
Exalead, OVH, Systran, Temis, Vecsys, Vocapia) et des utilisateurs de
référence dans le domaine de l'analyse de contenus non structurés
(texte, vidéo).

L'objectif du projet IMM est de développer de nouvelles fonctions ou
capacités pour des composants nécessaires pour des applications de
veille sur les sources ouvertes (moteur de recherche, de transcription
de la parole, de traduction...), de concevoir des environnements
d'exécution et d’intégration de ces composants et de relever un certain
nombre de défis comme par exemple réduire le temps d'adaptation à un
contexte nouveau (sources, domaine, langue).

SUJET DE STAGE :

La translittération consiste à substituer à chaque graphème d’un système
d’écriture, un autre graphème ou un groupe de graphèmes d’un autre
système d’écriture, indépendamment de la prononciation.

La translittération connait un essor important en raison du caractère de
plus en plus multilingue du Web. De nombreuses approches ont été
proposées pour développer des systèmes de translittération mais la
majorité des systèmes actuels ne prennent pas en compte la complexité
des problèmes de la transcription et de la translittération, lesquels
touchent autant à l’oralité qu’à la scripturalité des systèmes
linguistiques impliqués.

L’objectif de ce stage est de concevoir et de développer un outil de
translittération automatique de noms propres de l’arabe vers le script
latin et se déroulera selon les étapes suivantes :

- Etude, analyse et évaluation de l’existant. Cette étape permet
  d’identifier l’approche à explorer.

- Implémentation d’un outil automatique de translittération de noms
  propres de l’arabe vers le latin.

- Evaluation des résultats pour une généralisation à d’autres alphabets.

Vos missions :

- Faire un état de l’art dans le domaine : approches existantes et
  outils disponibles.

- Choix de l’approche et conception de l’outil de translitération des
  noms propres de l’arabe vers le script latin.

- Réaliser une évaluation des résultats.

Le profil recherché :

- Niveau : BAC+4 ou BAC +5, en Informatique ou Informatique Linguistique
  (Ingénieur ou Master) pour un stage de 4 à 6 mois.

Vos Compétences sont :

Obligatoires :

- Informatique : maîtrise d’un langage de programmation (C++, Java,
  Perl, Python).

- Technologies d’apprentissage.

Optionnelles :

- Technologies d’apprentissage : clustering, HMM.

- Traitement automatique des langues.

- La connaissance de la langue arabe est un plus.

BIBLIOGRAPHIE :

- ALGHAMDI M. (2005). Alghorithms for Romanizing Arabic names. Journal
  of King Saud University - Computer and Information Sciences,Volume 17,
  Riyadh, 105-128.

- AL-ONAIZAN Y., KNIGHT K. (2002). Translating named entities using
  monolingual and bilingual resources. Proceedings of the 40th ACL
  Conference, USA.

- JIANG L., ZHOU M., CHIEN L. F., NIU C. (2007). Named entity
  translation with web mining and transliteration. Proceedings of the
  20th International Joint Conference on Artificial Intelligence,
  1629-1634.

- TAO T., YOON S. Y., FISTER A., SPROAT R., ZHAI C. (2006). Unsupervised
  named entity transliteration using temporal and phonetic
  correlation. Proceedings of the Conference on Empirical Methods in
  Natural Language Processing (EMNLP’06), 250-257.

- YASER A. O., KNIGHT K. (2002). Translating named entities using
  monolingual and bilingual resources. Proceedings of the 40th Annual
  Meeting of the Association of Computational Linguistics (ACL’02),
  400-408.

CONDITIONS DE CANDIDATURE :

Contact et envoi des candidatures (CV détaillé et lettre de motivation):

Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar at cea.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list