These: Zoubeir Mouelhi, Essai de lexicometrie d'une oeuvre arabe classique

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Nov 14 15:07:18 UTC 2008


Date: Thu, 13 Nov 2008 23:25:12 +0100 (CET)
From: Zoubeir Mouelhi <Zoubeir.Mouelhi at univ-lyon2.fr>
Message-ID: <7460345.25040.1226615114726.JavaMail.root at co7>

Bonjour à tous,

J'ai le plaisir de vous annoncer la soutenance de ma thèse intitulée

"Essai de lexicométrie d'une oeuvre arabe classique : Al-'Imtâ'
wa-l-Mu'ânasa de Tawhîdî"

pour le 22 novembre à 9h à l'Université Lumière-Lyon2, dans la salle
"Jean-René Derré" au 18 Quai Claude Bernard (1er étage) à Lyon 7ème.

Cordialement,
Zoubeir mouelhi


Jury :

M. DICHY Joseph (Université Lyon 2, Directeur)
M. SAHLOUL Hassan (Université Lyon 3, Rapporteur)
M. BRAHAM Abdelfattah (Université de la Manouba TUNISIE, Rapporteur)
M. LELUBRE Xavier (Université Lyon 2, Examinateur)
M. HASSOUN Mohamed (ENSSIB, Examinateur)


Résumé : 

S'inscrivant dans la perspective générale de l'approche quantitative
de l'étude des textes, à la l'intersection de plusieurs disciplines,
notamment la linguistique, l'informatique et la statistique,
l'approche lexicométrique trouve plusieurs applications eu égard aux
textes, qu'ils soient pris isolément (préoccupations d'ordre
stylistique, didactique, historique, etc.), comparés entre eux
(typologies de textes, approche contrastive, etc.), considérés dans
leur relation aux auteurs (homogénéité d'auteur, attribution
d'auteurs, etc.) ou dans leur relation au temps (séries textuelles
chronologiques, spécificité chronologique, etc.).

Dans cette perspective lexicométrique, notre travail qui porte sur un
ouvrage célèbre de la pensée arabe médiévale, l'Imtâ' wa-l-Mu'ânasa de
Tawhîdî (IVe/Xe siècle) se fixe un triple objectif :
En premier lieu, l'élaboration, pour l'arabe, de ce que l'on appelle
une norme lexicologique, donnant une assise théorique et
méthodologique aux travaux lexicométriques futurs sur les textes
arabes. Deux volets composent la norme lexicologique que nous
proposons : une norme de saisie et d'harmonisation et une norme de
dépouillement.
En deuxième lieu, la confection du dictionnaire de fréquences de notre
corpus. Fruit naturel de toute étude lexicométrique globale de cette
nature, le dictionnaire de fréquences traduit et synthétise les
réorganisations formelles opérées sur la séquence textuelle d'origine,
ainsi que le résultat des différentes analyses statistiques qui ont
porté sur le vocabulaire du texte.
En troisième et dernier lieu, soumettre ce corpus à un certain nombre
de méthodes d'analyse et de traitement statistiques propres à la
lexicométrie en vue d'en étudier, principalement, la structure
lexicale mais aussi la trame radicale. Ainsi, la richesse lexicale,
l'accroissement du vocabulaire, la répartition des catégories
lexicales, la connexion lexicale, etc., qui représentent tant
d'éléments et d'indices pouvant caractériser le style d'un auteur,
d'un genre ou d'une époque, ont-ils donc été étudiés et analysés. Il
est nécessaire dans ce type d'entreprise, que des opérations de
dépouillement préalables soient opérées selon des règles claires et
stables assorties d'une réflexion minutieuse autour des notions de
segmentation, de lemmatisation, de désambiguïsation, de
catégorisation, etc. Les décomptes obtenus suite à ces étapes de
dépouillement et de quantification, sont soumis aux traitements
statistiques et à l'interprétation pour juger in fine des variations
des différentes unités linguistiques du corpus et en décrire la
structure lexicale.

Mots-Clefs :
Lexicométrie arabe, norme lexicologique, dépouillement lexical, TAL
arabe, segmentation, lemmatisation, désambiguïsation, catégorisation,
structure lexicale, richesse lexicale, catégories lexicales, textes
arabes classiques, linguistique de corpus.




Abstract :

Lexicometry belongs to the general field of quantitative textual study
and is situated at the intersection of various subjects, among which
linguistics, computer science and statistics ; it is concerned with
several types of applications in relationship to texts, whether they
are considered separately (and studied for their stylistic, didactic
or historical properties), compared to one another (as in textual
typology, contrastive studies, etc.), considered in their relationship
to their authors (studying homogeneity in a given author or
automatically attributing texts to specific authors) or to their place
in time (textual chronological series, chronological specificity,
etc.).
In this lexicometrical framework, our dissertation, which is based on
a famous work of Arabic medieval thinking, ImtâÝ wa-l-MuÞânasa de
TawÎîdî (4th –10th centuries), has a threefold objective:
- first, elaborating for Arabic what is known as a lexicological norm
that provides a theoretical and methodological foundation for future
work in lexicometry based on Arabic texts. There are two components to
the lexicological norm that we propose: one for data collection and
harmonization and one for data retrieval.
- second, building a frequency dictionary for our corpus. The natural
outcome of any general lexicometical work of this kind, the frequency
dictionary reproduces and synthesizes the formal reorganizations that
have been carried out on the original text sequences, as well as the
results of various statistical analyses of the text's vocabulary.
- finally, submitting the corpus to various statistical analysis and
processing methods that are typical of lexicometry in order to mostly
study its lexical structure but also its “radical
weft”. Thus, lexical richness, vocabulary increase, the
distribution of lexical categories, lexical connectivity, etc., which
are as many clues or elements that may characterize an author's style,
a genre or a given time period, have been studied and analyzed. In
this type of endeavor, it is essential that data retrieval be carried
out in accordance with stable and precise procedures following careful
deliberation about such notions as segmentation, lemmatization,
disambiguation, categorization, etc. The figures that have been
arrived at following the retrieval and quantification stages are then
submitted to statistical processing and human interpretation in order
to observe variation as measured in the various linguistic units of
the corpus and describe its lexical structure.


Key words :
Arabic lexicometry, lexicological norm, lexical data retrieval, Arabic
NLP, segmentation, lemmatization, disambiguation, categorisation,
lexical structure, lexical richness, lexical categories, classic
Arabic texts, corpus linguistics.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list