Job: Offre de stage TAL 2013, Onyme, Euratechnologies
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Jan 11 21:38:13 UTC 2013
Date: Fri, 11 Jan 2013 18:02:16 +0100
From: Benoît Trouvilliez <btrouvilliez at onyme.com>
Message-ID: <50F04598.4070906 at onyme.com>
X-url: http://www.onyme.com
------------------------------------------------------------------------
Envoyez votre candidature par email: recrute at onyme.com
------------------------------------------------------------------------
La société Onyme (http://www.onyme.com) recherche, en *2013*, un(e)
stagiaire de*deuxième année de master en informatique*, avec un attrait
pour le traitement automatique des langues. Une embauche à l'issue du
stage est envisagée.
*Profil* : Bac +5
*Durée du stage* : de 3 à 6 mois selon le sujet choisi.
*Lieu du stage* : Onyme (http://www.onyme.com), Euratechnologies
(http://www.euratechnologies.com)
Le stage s'inscrit au coeur de l'équipe de R&D composée d'un doctorant
en informatique (4ème année), d'un docteur en informatique et du
directeur technique de la société.
Il se compose de *deux sujets au choix* sur le traitement de la langue
française :
* Sujet 1 : Évaluation de différents analyseurs lexicaux et
syntaxiques sur des textes courts
(http://blog.onyme.com/offre-de-stage-tal-2013/#suj1)
* Sujet 2 : Reconnaissance / Extraction de thématiques dans des textes
courts (http://blog.onyme.com/offre-de-stage-tal-2013/#suj2)
Sujets
Sujet 1 : Évaluation de différents analyseurs lexicaux et
syntaxiques sur des textes courts
*Durée souhaitée du stage* : de 4 à 6 mois, selon les connaissances du
candidat.
*Compétences souhaitées* :
* Connaissances théoriques sur des analyseurs syntaxiques et lexicaux
(la pratique est un plus);
* Connaissances sur l'étiquetage grammatical et syntaxique de corpus
écrits;
* Motivé et autonome.
*Description du sujet* :
Les analyseurs lexicaux, i.e. lemmatiseurs et POS annotateurs, et
syntaxiques fonctionnent soit par apprentissage, soit par règles.
Ces outils, élaborés à partir de connaissances générales (ex :
apprentissage à partir d'un gros corpus de journaux), sont sujets à
erreur quand ils sont utilisés dans un domaine spécialisé.
L'idée du stage est d'améliorer les analyses en fournissant des
connaissances spécifiques aux analyseurs.
Le sujet comporte plusieurs aspects :
* élaboration de corpus arborés depuis les traitements clients
destinés à l'évaluation et à l'apprentissage des analyseurs;
* apprentissage spécifique, ou ajout/modification de règles, selon le
type d'analyseur;
* évaluation de différents analyseurs lexicaux sur nos données;
* évaluation d'analyseurs syntaxiques de surface (chunker) et
d'analyseurs partiels, ou élaboration d'un chunker.
Sujet 2 : Reconnaissance / Extraction de thématiques dans des
textes courts
*Durée souhaitée du stage* : de 3 à 6 mois, selon les connaissances du
candidat.
*Compétences souhaitées* :
* Connaissances sur les analyseurs syntaxiques : délimitation de
syntagmes;
* Programmation en langage orienté objet. Le langage JAVA est un plus;
* Connaissances en apprentissage artificiel (classification
thématique);
* Connaissances en structure du discours (Ex. : "X mais Y" implique
deux idées);
* Motivé et autonome.
*Description du sujet* :
Les textes à analyser comportent des thématiques différentes relatives à
un domaine.
Par exemple, dans le domaine de la vente, les thématiques fréquemment
abordées sont :
* La tarification;
* L'agencement des magasins;
* L'implantation des magasins;
* Le personnel.
Le sujet du stage concerne la résolution des problématiques liées
suivantes :
* l'évaluation du nombre de thématique abordés dans un message;
* la détection;
* la séparation d'un message en plusieurs syntagmes thématiques.
La liste des thèmes à détecter peut être connue à l'avance ou non. Dans
le premier cas, des techniques relevant de la supervision peuvent être
employées. Dans le second, il s'agit de découvrir de façon non
supervisée les thèmes présents dans un corpus.
Plus de détails concernant les sujets et l'offre sur notre blog :
http://blog.onyme.com
------------------------------------------------------------------------
Envoyez votre candidature par email: recrute at onyme.com
------------------------------------------------------------------------
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list