Sujet de these: Contrat doctoral, Fouille de textes multilingues pour les humanites numeriques, INaLCO

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Jun 1 08:58:24 UTC 2011


Date: Tue, 31 May 2011 12:07:42 +0200
From: Mathieu Valette <mvalette at inalco.fr>
Message-Id: <DE3CD132-7B69-4097-9D53-3E4DAAF688E5 at inalco.fr>
X-url: http://www.inalco.fr/ina_gabarit_rubrique.php3?id_rubrique=2356


APPEL À CANDIDATURE POUR UN CONTRAT DOCTORAL 2011-2014

L'Institut National des Langues et Civilisations Orientales (INALCO)
lance un appel à candidature pour un contrat doctoral en humanités
numériques.

http://www.inalco.fr/ina_gabarit_rubrique.php3?id_rubrique=2356

TITRE  : Méthodes et outils de la fouille de textes multilingues pour
les humanités numériques.
DOMAINE : Sémantique, linguistique de corpus, TAL, e-humanities
LIEU : INALCO-Recherche, Paris.
EQUIPE D'ACCUEIL : Equipe de recherche en Textes, Informatique,
Multilinguisme (ERTIM) en collaboration avec une autre unité de
recherche de l’INALCO.
DATE LIMITE DU DEPÔT : mardi 14 juin 2011

Description : Les humanités numériques constituent une des mutations
majeures des sciences humaines et sociales actuellement. La
banalisation du support numérique et les grands chantiers de
dématérialisation des textes anciens offrent de nouvelles opportunités
non seulement en termes d'accès aux données, mais aussi — et surtout —
en termes d'analyses renouvelées desdites données.
 
Les premiers pas des humanités numériques relevaient d'ambitions à la
fois patrimoniales, éditoriales et documentaires. Beaucoup
d'initiatives consistaient en collectes de documents, numérisations et
collations pour ensuite les rendre interrogeables au moyen de
concordanciers. Les projets ont ensuite porté sur la normalisation des
bases textuelles avec l'établissement de formats d'échange et de
normes d'encodage, lesquels ont facilité des travaux d'annotations
philologiques et d'étiquetage (morphosyntaxique, lexical) permettant
de complexifier les outils d'interrogation.
 
L'utilisation, l'adaptation et la création d'outils et de
méthodologies de linguistique de corpus adaptées à l’herméneutique des
textes constituent l'enjeu actuel des humanités numériques. Il s'agit
désormais de développer de nouvelles méthodes d'aide à
l'interprétation des textes, s'inspirant à la fois de la philologie et
de l'herméneutique traditionnelle et des méthodes TAL en fouille de
textes.
 
L'INALCO lance un appel à candidature pour un projet de recherche
doctorale consacré à la réalisation de méthodologies et d'outils de
fouille de corpus comparables multilingues et multi-écritures. Il
s'agira de participer à l'émergence d'une problématique transversale
au sein de l'Institut alliant des recherches en ingénierie
linguistique et en littératures et sciences humaines, dans un contexte
multilingue.
 
La recherche sera pilotée par l'Équipe de Recherche Textes,
Informatique, Multilinguisme (ERTIM)l et co-encadrée avec une autre
unité de recherche de l’INALCO. L'ERTIM effectue notamment des
recherches en sémantique et en lexicologie textuelles multilingues, en
traitement automatique de corpus alignés et comparables dans le cadre
d'application en fouille de textes, extraction et structuration de
connaissances linguistiques et analyse de textes assistée par
ordinateur.

Le candidat pourra être accueilli par le Centre de Recherche
Moyen-Orient et Méditerranée (CERMOM) dans le cadre du projet Aliento
et l'Équipe de Recherche Textes, Informatique, Multilinguisme
(ERTIM). Le projet Aliento (http://www.aliento.eu/) construit une base
de données constituée de corpus sapientiels médiévaux composés,
traduits et diffusés dans la péninsule ibérique entre le IXe et le XVe
siècles, de leurs sources et des textes qui en sont issus. Ces corpus
sapientiels numérisés et balisés permettent d’apprécier, à partir
d’une matière exemplaire spécifique, le fonds commun partagé des
littératures et des cultures chrétiennes, juives et musulmanes à un
moment et en un lieu donnés. À partir de ce matériau, la thèse aura
pour objectif général l’élaboration de méthode d'analyse des énoncés
sapientiaux de manière à en restituer les régularités et proposer un
modèle conceptuel permettant leur identification dans des corpus.

D’autres programmes de recherche correspondant au domaine mentionné
sont éligibles dans les unités de recherche de l’INALCO. C’est le cas
notamment du programme « Corpus numérique et archives » des équipes
LACNAD-Arabe maghrébin et LACNAD-Berbère (cf. axe quadriennal 2010-
2013, en collaboration avec le CRB, le CREAM et le LCJMMO), qui
s’inscrit dans les axes de la Fédération TUL : (i) « Conservation et
mutualisation des ressources linguistiques orales » ; (ii) « Corpus
oraux et typologie de l’articulation syntaxe/prosodie ».

Candidat attendu : Le candidat devra présenter un niveau Master 2, de
préférence en science du langage et en Traitement Automatique des
Langues. Il devrait être autonome d’un point de vue informatique en
traitement de données textuelles (PERL, XML, base de données, gestion
du multilinguisme, représentation numérique des caractères). Pour le
projet Aliento, la maîtrise du français, de l’espagnol et d’au moins
une langue sémitique (arabe et/ou hébreu) est requise. Pour les autres
projets, la maîtrise du français et d’au moins une langue orientale
est requise. La langue de travail est le français.

Modalité de candidature : 

Le candidat est prié de prendre rapidement contact avec l’équipe ERTIM
(mvalette at inalco.fr) pour la préparation du dossier et de l’audition
en concertation avec l’unité de recherche associée.

Se reporter également aux modalités de candidature au contrat doctoral
http://www.inalco.fr/ina_gabarit_rubrique.php3?id_rubrique=2356 en
précisant que le titre de la recherche : MÉTHODES ET OUTILS DE LA
FOUILLE DE TEXTES MULTILINGUES POUR LES HUMANITÉS NUMÉRIQUES.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list