Stage: Mise sous licence libre d'un logiciel d'analyse linguistique multilingue, CEA

Sat Feb 16 19:43:59 UTC 2013

Date: Wed, 13 Feb 2013 10:47:01 +0100
From: Gaël de Chalendar <Gael.de-Chalendar at cea.fr>
Message-ID: <2423550.PesY3YM2Y0 at brezhoneg>
X-url: http://citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=A5D66B8127851343E2F9DB107DF26034?doi=10.1.1.231.3742

COMMISSARIAT A L’ENERGIE ATOMIQUE ET AUX ENERGIES ALTERNATIVES
Laboratoire Vision et Ingénierie des Contenus

SUJET

Contexte

Depuis 2002, le LVIC développe l'analyseur linguistique multilingue LIMA
[1].  Il s'agit à ce jour d'un outil très modulaire capable de faire
l'analyse (tokenisation, analyse morphologique, syntaxique et
sémantique) de textes dans des langues aussi diverses que le Français,
l'Anglais, l'Arabe, le Chinois, l'Espagnol, l'Allemand ou encore
l'Italien. LIMA représente à ce jour plus de 100.000 lignes de code
(sans compter les ressources linguistiques). LIMA est déjà utilisé dans
plusieurs produits industriels, mais le CEA LIST a décidé de le diffuser
sous une licence libre pour faciliter son utilisation, sa diffusion et
obtenir des retours plus rapides d'une communauté d'utilisateurs plus
large.
LIMA est codé en C++ standard. Il utilise largement les biliothèques
boost et Qt. Il est multi-plateformes (GNU/Linux et MS Windows à ce
jour). Son architecture le rend très facilement extensible et intégrable
dans des applications.

Objectifs

Cette libération, qui se fait dans le cadre du projet ANR ASFALDA [2],
nécessite d'améliorer encore le logiciel avant de le diffuser, et ce sur
plusieurs aspects:
- documentation des API ;
- documentation utilisateur ;
- tests unitaires ;
- tests fonctionnels.

LIMA dépend de ressources linguistiques pour fonctionner (dictionnaires,
règles d'analyse,...). Même si le laboratoire est propriétaire de
certaines d'entre elles, d'autres sont issues de ressources commerciales
et ne peuvent être diffusées librement. Il faudra donc produire des
ressources de remplacement à partir de ressources linguistiques libres
disponibles.

Le travail du stagiaire consistera à intervenir sur ces différents
sujets (codage, documentation et ressources) en vue de la mise à
disposition de LIMA sur une forge logicielle à la fin du stage. Le ou la
candidat(e) retenu(e) aura un bon niveau en C++, une compréhension des
problématiques liées à la diffusion des logiciels (tests,
documentation...) et idéalement aura participé à un projet de logiciel
libre.

Le stage se déroulera dans les locaux du LVIC situés à Nano-INNOV à
Palaiseau (près de Polytechnique, Sup'Optique, Thales et Danone).

[1] 
http://citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=A5D66B8127851343E2F9DB107DF26034?doi=10.1.1.231.3742
[2] https://sites.google.com/site/anrasfalda/

Durée du stage : 4 à 6 mois

Formation souhaitée : Master 1 ou 2, Ingénieur 2° ou 3° année.

Contact:
Gaël de Chalendar
Mail : Gael.de-Chalendar at cea.fr
Tél. : 01 69 08 01 50

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------