Sujet de these: Extraction et categorisation de lexiques transdisciplinaires d'articles scientifiques

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Jun 12 19:50:52 UTC 2012


Date: Mon, 11 Jun 2012 18:33:29 +0200
From: Agnès Tutin <agnes.tutin at u-grenoble3.fr>
Message-ID: <000001cd47ef$eef4f840$ccdee8c0$@u-grenoble3.fr>


Le laboratoire LIDILEM
( http://w3.u-grenoble3.fr/lidilem/labo/web/presentation.php ) appelle
des candidatures pour une thèse financée par allocation doctorale de la
région Rhône-Alpes (env. 1700 euros brut / mois).

*************************************
Descriptif de la thèse :

Titre : Extraction et catégorisation de lexiques transdisciplinaires
d’articles scientifiques de sciences humaines en vue de l’indexation
automatique

Résumé du projet : 

Dans cette thèse, l’approche proposée portera sur un type de discours
scientifique moins analysé au plan linguistique, les articles de
recherche en sciences humaines et sociales, sur lesquels une réflexion
linguistique et épistémologique sera menée dans une perspective
d’analyse du contenu textuel pour l’indexation automatique. Il s’agira
de mettre en évidence le lexique et la phraséologie associés aux
processus et à la démonstration scientifiques, qu’ils soient propres aux
disciplines ou « transdisciplinaires », tout en excluant la
terminologie. L’objectif est ici triple : 

a) il s’agit de repérer les termes qui caractérisent la scientificité
   des écrits de sciences humaines (Par exemple, quels marqueurs
   linguistiques pour l’observation scientifique ? quels mécanismes
   linguistiques pour formuler une preuve ?). Plusieurs études
   ponctuelles ont été réalisées sur ces aspects (par exemple, étude du
   fonctionnement de verbe "voir" dans sa fonction évidentielle
   (Grossmann & Tutin 2010) ou le lexique adjectival évaluatif (Cf Tutin
   2010), mais à notre connaissance, il n’y a pas eu d’étude en grandeur
   réelle avec des techniques lexicométriques ;

b) Nous cherchons ensuite à repérer comment les concepts clés, à travers
   la terminologie, sont introduits dans les discours. Ce n’est pas ici
   la terminologie du domaine qui est en jeu, mais la façon dont les
   notions clés sont présentées. Les études dans le domaine mettent au
   jour la récurrence des patrons phraséologiques qui transcendent les
   domaines de connaissances et permettent d’exprimer des relations
   entre termes, d’introduire des définitions et/ou des dénominations
   (Rebeyrolle 2000, Grabar et Hamon 2004, Gillam, Tariq et Ahmad 2005,
   Jacques et Aussenac-Gilles 2006, Marshmann et l’Homme
   2008). L’analyse ne devra donc pas exclusivement porter sur les
   unités simples ou complexes mais aussi s’étendre à la phraséologie
   typique de l’article scientifique, qu’elle s’incarne par des
   collocations binaires (par exemple "résultats encourageants") ou par
   des constructions syntaxiques plus complexes (par exemple "les
   travaux de --- montrent que "), qui acceptent certaines variations.

c) Dans un dernier temps, il s’agit de constituer une ressource, le
   lexique transdisciplinaire, que l’on exploitera dans des applications
   de sciences de l’information, pour caractériser le contenu du
   document. Ce lexique sera ici doublement utilisé : à la fois comme un
   lexique d’exclusion pour l’extraction des mots-clés des thèmes du
   texte, et dans un deuxième temps, pour permettre une caractérisation
   du type de discours scientifique (par exemple, l’accent est-il mis
   sur la méthodologie, l’observation ? ou les aspects plus théoriques
   ?). Il s’agit ici en quelque sorte de dépasser la terminologie
   classique en intégrant dans la méthode d’indexation des éléments de
   la typologie textuelle, ce qui constitue une approche innovante
   d’analyse de contenu, rendue possible par les techniques de
   traitement automatique des langues utilisées. Cela suppose une
   caractérisation fine des ressources lexicales extraites, aux plans
   sémantique, syntaxique et rhétorique (Cf. Pecman 2004).


Ce projet de thèse s’inscrit au carrefour de trois domaines
disciplinaires : a) la linguistique, en particulier la sémantique et la
linguistique de l’énonciation, b) le traitement automatique des langues,
c) les sciences de l’information, en particulier les techniques des
langages documentaires. Il s’inscrit dans la continuité de travaux sur
la phraséologie des écrits scientifiques, le lexique transdisciplinaire
pouvant être conçu comme le lexique métascientifique (par exemple, le
lexique des procédures et résultats : "premier résultats", "nous
analysons", "hypothèse" et/ou le métadiscours qui inclut le
positionnement de l’auteur ("résultats encourageants", "cette méthode
apparaît peu adaptée" …) ou les marqueurs métatextuels ("dans un second
temps", "nous introduirons ensuite" …) (Phal 1971, Coxhead 2000, Pecman
2004, Hirsh & Coxhead 2007, Tutin 2007 a et b, Da Sylva 2010).

Les travaux ont jusqu’à présent peu porté sur le français mais surtout
sur l’anglais et dans les sciences « dures », essentiellement dans une
perspective didactique, en dehors des travaux encore exploratoires de
Drouin (2007) et Da Sylva (2010). Au plan théorique, il s’agira
d’analyser l’articulation entre le lexique de spécialité disciplinaire
et le lexique de genre, la limite étant particulièrement poreuse dans
les écrits de sciences humaines, et de proposer une réflexion sur
l’utilisation de telles ressources pour une caractérisation du type de
l’écrit scientifique.


Références bibliographiques :
  Aït-Mokhtar S., Chanod J.P. et Roux C. (2002). Robustness beyond
  shallowness : incremental deep parsing. Nat. Lang. Eng., 8, 121–144.

  Coxhead A. (2000). A New Academic Word List, TESOL Quaterly, 34 (2),
  213-238.

  Coxhead A. et Hirsh D. (2007). A pilot science word list for EAP,
  Revue Française de linguistique appliquée, XII, (2), 65-78. 

  DaSylva L. (2010). Extraction semi-automatique d’un vocabulaire savant
  de base pour l’indexation automatique, TALN’10, Montréal, 19-23
  juillet.

  Daille B. (2010). Terminology Mining, in M.T. Pazienza (ed),
  Information Extraction in the Web Era, Lectures Notes in Artificial
  Intelligence, Springer, 29-44. 

  Drouin P. (2007). Identification automatique du lexique scientifique
  transdisciplinaire, Revue française de linguistique appliquée, 12(2),
  45-64. 

  Drouin P., Tutin A. et Reid-Triatanfyllos S. (2007). Identification
  automatique des collocations transdisciplinaires des écrits
  scientifiques. Terminologie : approches transdisciplinaires, Gatineau
  (Québec), 2-4 mai. 

  Gillam L., Tariq M. et Ahmad K. (2005).  Terminology and the
  construction of ontology, Terminology, 11(1), 55-81.

  Grabar N. et Hamon T. (2004). Les relations dans les terminologies
  structurées: de la théorie à la pratique, Revue d’intelligence
  artificielle, 18(1), 57-85. 

  Grossmann F., Tutin A. (2010). Evidential Markers in French Scientific
  Writing: the Case of the French Verb voir. In Smirnova Elena, Diewald
  Gabriele Evidentiality in European Languages (pp. 279-307). Empirical
  Approaches to Language Typology (EALT). Berlin, New York: Mouton de
  Gruyter. 

  Ibekwe-SanJuan F., SanJuan E. (2004). Mapping the structure of
  research topics through term variant clustering : the TermWatch
  system, 7ème Journées internationales d'Analyse statistique des
  données textuelles (JADT' 2004). Louvain-la-Neuve, Belgium, 10-12
  March 2004, 589-600.[jadt2004] [7th International conference on
  Textual data statistical analysis]. 

  Jacques M.P. et Aussenac-Gilles N. (2006). Variabilité des
  performances des outils de TAL et genre textuel, TAL, 47(1). 

  Marshmann E. et L’Homme M.C. (2008). Portabilité des marqueurs de la
  relation causale : étude sur deux corpus spécialisés, in Maniez F.,
  Dury P., Arlin N. et Rougemont C. (eds), Corpus et dictionnaires de
  langues de spécialité, Presses Universitaires de Grenoble. 

  Paquot, M. et Bestgen Y. (2007). Distinctive words in academic
  writing: A comparison of three statistical tests for keyword
  extraction, in Jucker, Andreas H., Daniel Schreier & Marianne Hundt
  (eds), Corpora:Pragmatics and Discourse, Amsterdam: Rodopi, 247-269.

  Pecman M. (2004). Phraséologie contrastive anglais-français : analyse
  et traitement en vue de l’aide à la rédaction scientifique. Thèse de
  doctorat, Université de Nice-Sophia Antipolis. 

  Phal A. (1971). Vocabulaire général d’orientation scientifique
  (V.G.O.S.) - Part du lexique commun dans l’expression
  scientifique. Paris : Didier. 

  Rebeyrolle J. (2000). Forme et fonction de la définition en discours,
  Université Toulouse II Le Mirail, Equipe de recherche en Syntaxe et
  Sémantique. 

  Tutin Agnès (2007a). Modélisation linguistique et annotation des
  collocations : une application au lexique transdiciplinaire des écrits
  scientifiques. In S. Koeva, D. Maurel & M. Silberztein (eds),
  Formaliser les langues avec l’ordinateur : de Intex à NooJ,
  189-215. Besançon: Presses Universitaires de Franche Comté. 

  Tutin Agnès (ed.) (2007b). Lexique des écrits scientifiques. Revue
  Française de Linguistique Appliquée. Vol. XII, 2007/2
  (http://www.cairn.info/revue-francaise-de-linguistique-appliquee-2007-2.htm).  

  Tutin Agnès (2010). Evaluative adjectives in academic writing in the
  humanities and social sciences. In Rosa Lores-Sanz, Pilar Mur-Duenas,
  Enrique Lafuente-Millan Constructing Interpersonality: Multiple
  Perspectives on Written Academic Genres. Cambridge: Cambridge Scholars
  Publishing.

*************************************

Idéalement, le/la candidat-e aura de solides connaissances linguistiques
et de bonnes connaissances du TAL (Master Sciences du langage, master
TAL). La thèse s'articule à un projet plus vaste soumis à accord de
financement, impliquant d'autres laboratoires de linguistique et
d'informatique.

Pour renseignements et pour faire acte de candidature, contacter Agnès
Tutin <agnes.tutin at u-grenoble3.fr> et Marie-Paule Jacques
<marie-paule.jacques at ujf-grenoble.fr> le plus rapidement possible.

Envoyer un CV, un relevé des notes du master et un exposé des travaux de
recherche antérieurs et projetés (mémoires de master, projets de
recherche).

Marie-Paule Jacques et Agnès Tutin

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list