Sujet de these: Fouille de textes, TALN / PhD Grant proposal Text Mining, NLP

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Apr 21 15:20:58 UTC 2009


Date: Sun, 19 Apr 2009 16:25:50 +0200
From: Pierre-Francois Marteau <pierre-francois.marteau at univ-ubs.fr>
Message-ID: <49EB346E.9050503 at univ-ubs.fr>
X-url: http://www-valoria.univ-ubs.fr/
X-url: http://web.univ-ubs.fr/corpus/publi.html
X-url: http://www.metricc.com/


Proposition de thèse financée/ 3 years research grant proposal,
english version by the end of the message

Titre : Fouille de texte et exploitation du web pour la construction
de corpus comparables

Contexte

Le laboratoire VALORIA (http://www-valoria.univ-ubs.fr/) associé à
l’équipe LICORN (http://web.univ-ubs.fr/corpus/publi.html) du
laboratoire XXX propose une allocation de thèse en informatique pour
trois ans financée dans le cadre du projet ANR METRICC
(http://www.metricc.com/), à la croisée des technologie web et du
traitement automatique des langues naturelles.

Le travail de thèse proposé cible la collecte de documents sur
Internet dans le but de construire des corpus comparables. Cela
nécessite le développement d’un crawling thématique orienté qui permet
de décider si le système doit suivre des hyperliens ou non. Il s’agira
donc de tester la dérive des documents rapportés par rapport à des
critères de comparabilités pré-définis. La thématique recherchée
pourra être spécifiée sous la forme de "cartographies lexicales"
comparées (au sens défini par J. Veronis), de thesaurus alignés,
d’ontologies alignées ou d’ensemble de documents alignés à titre
d’exemples.

Il conviendra d'effectuer des analyses lexicographiques sur le corpus
issu du crawling afin d'évaluer une dérive sémantique consécutive à
des changements de contextes. Il est proposé de réaliser une analyse
collocationnelle et colligationnelle fine de certains concepts clés
afin de détecter si des équivalents de traduction peuvent être dégagés
et si oui, d'analyser leur stabilité en fonction de l'environnement
lexical.  Nous pourrons ainsi comparer les structures d'une ontologie
naturelle construite à partir d'un corpus comparable de référence et
celles construite à partir d’un corpus comparable résultant d'un
crawling orienté.


Title: Text mining and web crawling dedicated to the construction of
comparable corpora

Context

The VALORIA research group. (http://www-valoria.univ-ubs.fr/)
associated to the LICORN team of the HCTI research group
(http://web.univ-ubs.fr/corpus/) has currently a vacancy for a 3-year
PhD research grant in computer science, funded by the ANR METRICC
project (http://www.metricc.com/). This project is situated at the
interface of web technologies and Natural Language Processing.


The research work centres on the collecting of documents on the web
with a view to reducing the cost of constructing comparable
corpora. This task requires the development of oriented thematic
crawling that is, for example, able to decide whether or not crawling
a hyperlink is profitable. It will be necessary to test and evaluate
the drift of the crawled documents with respect to pre-defined
comparability criteria.  The thematic could be defined either by means
of comparable lexical cartographies (as defined by J. Veronis) ,
aligned thesaurus or ontologies, or a set of aligned documents.

It will be necessary to propose lexicographic analyses on the crawled
set of documents in order to tackle potential semantic drift due to
context change. It is suggested to develop detailed collocational and
colligational analysis for some key concepts so as to detect whether
equivalent concepts can be extracted in translation and, if so, if
whether these translated concepts are stable with respect to the
lexical environment. This would allow comparisons to be drawn between
the structure of a natural ontology and one constructed from reference
comparable corpora produced through oriented thematic crawling.


-------------------------------------+-----------------------------+
Pierre-François Marteau              | Professeur des Universités  |
VALORIA- Université de Bretagne-Sud, | Directeur VALORIA           |
Université Européenne de Bretagne    | Tél :    +33-2.97.01.72.99  |
Campus de Tohannic-BP 573,           | Fax :    +33-2.97.01.72.79  |
56017 Vannes Cedex, France           | Sec :    +33-2.97.01.72.35  |
-------------------------------------+-----------------------------|
http://www-valoria.univ-ubs.fr/Pierre-Francois.Marteau/            |
-------------------------------------------------------------------+

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list