Sujet de these: Extraction et categorisation de lexiques transdisciplinaires d'articles scientifiques
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Tue Jun 12 19:50:52 UTC 2012
Date: Mon, 11 Jun 2012 18:33:29 +0200
From: Agnès Tutin <agnes.tutin at u-grenoble3.fr>
Message-ID: <000001cd47ef$eef4f840$ccdee8c0$@u-grenoble3.fr>
Le laboratoire LIDILEM
( http://w3.u-grenoble3.fr/lidilem/labo/web/presentation.php ) appelle
des candidatures pour une thèse financée par allocation doctorale de la
région Rhône-Alpes (env. 1700 euros brut / mois).
*************************************
Descriptif de la thèse :
Titre : Extraction et catégorisation de lexiques transdisciplinaires
d’articles scientifiques de sciences humaines en vue de l’indexation
automatique
Résumé du projet :
Dans cette thèse, l’approche proposée portera sur un type de discours
scientifique moins analysé au plan linguistique, les articles de
recherche en sciences humaines et sociales, sur lesquels une réflexion
linguistique et épistémologique sera menée dans une perspective
d’analyse du contenu textuel pour l’indexation automatique. Il s’agira
de mettre en évidence le lexique et la phraséologie associés aux
processus et à la démonstration scientifiques, qu’ils soient propres aux
disciplines ou « transdisciplinaires », tout en excluant la
terminologie. L’objectif est ici triple :
a) il s’agit de repérer les termes qui caractérisent la scientificité
des écrits de sciences humaines (Par exemple, quels marqueurs
linguistiques pour l’observation scientifique ? quels mécanismes
linguistiques pour formuler une preuve ?). Plusieurs études
ponctuelles ont été réalisées sur ces aspects (par exemple, étude du
fonctionnement de verbe "voir" dans sa fonction évidentielle
(Grossmann & Tutin 2010) ou le lexique adjectival évaluatif (Cf Tutin
2010), mais à notre connaissance, il n’y a pas eu d’étude en grandeur
réelle avec des techniques lexicométriques ;
b) Nous cherchons ensuite à repérer comment les concepts clés, à travers
la terminologie, sont introduits dans les discours. Ce n’est pas ici
la terminologie du domaine qui est en jeu, mais la façon dont les
notions clés sont présentées. Les études dans le domaine mettent au
jour la récurrence des patrons phraséologiques qui transcendent les
domaines de connaissances et permettent d’exprimer des relations
entre termes, d’introduire des définitions et/ou des dénominations
(Rebeyrolle 2000, Grabar et Hamon 2004, Gillam, Tariq et Ahmad 2005,
Jacques et Aussenac-Gilles 2006, Marshmann et l’Homme
2008). L’analyse ne devra donc pas exclusivement porter sur les
unités simples ou complexes mais aussi s’étendre à la phraséologie
typique de l’article scientifique, qu’elle s’incarne par des
collocations binaires (par exemple "résultats encourageants") ou par
des constructions syntaxiques plus complexes (par exemple "les
travaux de --- montrent que "), qui acceptent certaines variations.
c) Dans un dernier temps, il s’agit de constituer une ressource, le
lexique transdisciplinaire, que l’on exploitera dans des applications
de sciences de l’information, pour caractériser le contenu du
document. Ce lexique sera ici doublement utilisé : à la fois comme un
lexique d’exclusion pour l’extraction des mots-clés des thèmes du
texte, et dans un deuxième temps, pour permettre une caractérisation
du type de discours scientifique (par exemple, l’accent est-il mis
sur la méthodologie, l’observation ? ou les aspects plus théoriques
?). Il s’agit ici en quelque sorte de dépasser la terminologie
classique en intégrant dans la méthode d’indexation des éléments de
la typologie textuelle, ce qui constitue une approche innovante
d’analyse de contenu, rendue possible par les techniques de
traitement automatique des langues utilisées. Cela suppose une
caractérisation fine des ressources lexicales extraites, aux plans
sémantique, syntaxique et rhétorique (Cf. Pecman 2004).
Ce projet de thèse s’inscrit au carrefour de trois domaines
disciplinaires : a) la linguistique, en particulier la sémantique et la
linguistique de l’énonciation, b) le traitement automatique des langues,
c) les sciences de l’information, en particulier les techniques des
langages documentaires. Il s’inscrit dans la continuité de travaux sur
la phraséologie des écrits scientifiques, le lexique transdisciplinaire
pouvant être conçu comme le lexique métascientifique (par exemple, le
lexique des procédures et résultats : "premier résultats", "nous
analysons", "hypothèse" et/ou le métadiscours qui inclut le
positionnement de l’auteur ("résultats encourageants", "cette méthode
apparaît peu adaptée" …) ou les marqueurs métatextuels ("dans un second
temps", "nous introduirons ensuite" …) (Phal 1971, Coxhead 2000, Pecman
2004, Hirsh & Coxhead 2007, Tutin 2007 a et b, Da Sylva 2010).
Les travaux ont jusqu’à présent peu porté sur le français mais surtout
sur l’anglais et dans les sciences « dures », essentiellement dans une
perspective didactique, en dehors des travaux encore exploratoires de
Drouin (2007) et Da Sylva (2010). Au plan théorique, il s’agira
d’analyser l’articulation entre le lexique de spécialité disciplinaire
et le lexique de genre, la limite étant particulièrement poreuse dans
les écrits de sciences humaines, et de proposer une réflexion sur
l’utilisation de telles ressources pour une caractérisation du type de
l’écrit scientifique.
Références bibliographiques :
Aït-Mokhtar S., Chanod J.P. et Roux C. (2002). Robustness beyond
shallowness : incremental deep parsing. Nat. Lang. Eng., 8, 121–144.
Coxhead A. (2000). A New Academic Word List, TESOL Quaterly, 34 (2),
213-238.
Coxhead A. et Hirsh D. (2007). A pilot science word list for EAP,
Revue Française de linguistique appliquée, XII, (2), 65-78.
DaSylva L. (2010). Extraction semi-automatique d’un vocabulaire savant
de base pour l’indexation automatique, TALN’10, Montréal, 19-23
juillet.
Daille B. (2010). Terminology Mining, in M.T. Pazienza (ed),
Information Extraction in the Web Era, Lectures Notes in Artificial
Intelligence, Springer, 29-44.
Drouin P. (2007). Identification automatique du lexique scientifique
transdisciplinaire, Revue française de linguistique appliquée, 12(2),
45-64.
Drouin P., Tutin A. et Reid-Triatanfyllos S. (2007). Identification
automatique des collocations transdisciplinaires des écrits
scientifiques. Terminologie : approches transdisciplinaires, Gatineau
(Québec), 2-4 mai.
Gillam L., Tariq M. et Ahmad K. (2005). Terminology and the
construction of ontology, Terminology, 11(1), 55-81.
Grabar N. et Hamon T. (2004). Les relations dans les terminologies
structurées: de la théorie à la pratique, Revue d’intelligence
artificielle, 18(1), 57-85.
Grossmann F., Tutin A. (2010). Evidential Markers in French Scientific
Writing: the Case of the French Verb voir. In Smirnova Elena, Diewald
Gabriele Evidentiality in European Languages (pp. 279-307). Empirical
Approaches to Language Typology (EALT). Berlin, New York: Mouton de
Gruyter.
Ibekwe-SanJuan F., SanJuan E. (2004). Mapping the structure of
research topics through term variant clustering : the TermWatch
system, 7ème Journées internationales d'Analyse statistique des
données textuelles (JADT' 2004). Louvain-la-Neuve, Belgium, 10-12
March 2004, 589-600.[jadt2004] [7th International conference on
Textual data statistical analysis].
Jacques M.P. et Aussenac-Gilles N. (2006). Variabilité des
performances des outils de TAL et genre textuel, TAL, 47(1).
Marshmann E. et L’Homme M.C. (2008). Portabilité des marqueurs de la
relation causale : étude sur deux corpus spécialisés, in Maniez F.,
Dury P., Arlin N. et Rougemont C. (eds), Corpus et dictionnaires de
langues de spécialité, Presses Universitaires de Grenoble.
Paquot, M. et Bestgen Y. (2007). Distinctive words in academic
writing: A comparison of three statistical tests for keyword
extraction, in Jucker, Andreas H., Daniel Schreier & Marianne Hundt
(eds), Corpora:Pragmatics and Discourse, Amsterdam: Rodopi, 247-269.
Pecman M. (2004). Phraséologie contrastive anglais-français : analyse
et traitement en vue de l’aide à la rédaction scientifique. Thèse de
doctorat, Université de Nice-Sophia Antipolis.
Phal A. (1971). Vocabulaire général d’orientation scientifique
(V.G.O.S.) - Part du lexique commun dans l’expression
scientifique. Paris : Didier.
Rebeyrolle J. (2000). Forme et fonction de la définition en discours,
Université Toulouse II Le Mirail, Equipe de recherche en Syntaxe et
Sémantique.
Tutin Agnès (2007a). Modélisation linguistique et annotation des
collocations : une application au lexique transdiciplinaire des écrits
scientifiques. In S. Koeva, D. Maurel & M. Silberztein (eds),
Formaliser les langues avec l’ordinateur : de Intex à NooJ,
189-215. Besançon: Presses Universitaires de Franche Comté.
Tutin Agnès (ed.) (2007b). Lexique des écrits scientifiques. Revue
Française de Linguistique Appliquée. Vol. XII, 2007/2
(http://www.cairn.info/revue-francaise-de-linguistique-appliquee-2007-2.htm).
Tutin Agnès (2010). Evaluative adjectives in academic writing in the
humanities and social sciences. In Rosa Lores-Sanz, Pilar Mur-Duenas,
Enrique Lafuente-Millan Constructing Interpersonality: Multiple
Perspectives on Written Academic Genres. Cambridge: Cambridge Scholars
Publishing.
*************************************
Idéalement, le/la candidat-e aura de solides connaissances linguistiques
et de bonnes connaissances du TAL (Master Sciences du langage, master
TAL). La thèse s'articule à un projet plus vaste soumis à accord de
financement, impliquant d'autres laboratoires de linguistique et
d'informatique.
Pour renseignements et pour faire acte de candidature, contacter Agnès
Tutin <agnes.tutin at u-grenoble3.fr> et Marie-Paule Jacques
<marie-paule.jacques at ujf-grenoble.fr> le plus rapidement possible.
Envoyer un CV, un relevé des notes du master et un exposé des travaux de
recherche antérieurs et projetés (mémoires de master, projets de
recherche).
Marie-Paule Jacques et Agnès Tutin
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list