Revue: Revue canadienne des sciences de l=?ISO-8859-1?Q?=B9information=2C_?=35.3, Fouille de textes et la recherche

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Oct 28 20:15:41 UTC 2011


Date: Wed, 26 Oct 2011 17:46:52 -0400
From: Dominic Forest <dominic.forest at umontreal.ca>
Message-ID: <CACDF80C.1CC5C%dominic.forest at umontreal.ca>
X-url: http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/toc/ils.35.3.html


Le volume 35, numéro 3 (septembre 2011) de la Revue canadienne des
sciences de l¹information et de bibliothéconomie sur le thème de la
fouille de textes et la recherche d¹information est maintenant
disponible sur Project MUSE
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/toc/ils.35.3.html


Table des matières :

1-- Fouille de textes et recherche d¹information
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.forest.html
Introduction par Dominic Forest et Lyne Da Sylva


2-- Named Entity Normalization: Combining Normalization Rules,
Endogenous Resources and User-Oriented Process / Normalisation des
entités nommées : allier règles déclaratives, ressources endogènes et
processus centré sur l¹utilisateur
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.andreani.html
Vanessa Andréani, Thibault Roy et Thomas Lebarbé

Abstract: Normalization is involved in many fields of information
processing. It improves the performance of several applications, such as
information retrieval or information extraction, and makes the
construction of language resources more reliable. Normalization consists
in standardizing each variant of a term or named entity into a unique
form, and in this way restricts the impact of language variation. Our
work applies to named entity normalization, and aims at optimizing
fine-grained corpus analyses carried out by the TecKnowMetrix
Company. Our approach mixes several methods, such as pattern matching,
similarity metrics and endogenous techniques. Moreover, we place the
user in the center of our normalization process, in order to obtain
fully reliable data that fit his or her needs.

Résumé : La normalisation intervient dans de nombreux champs du
traitement de l¹information. Elle permet d¹améliorer l¹efficacité
d¹applications telles que la recherche ou l¹extraction d¹information, et
de rendre plus fiable la constitution de ressources langagières. La
normalisation consiste à ramener toutes les variantes d¹un même terme ou
d¹une entité nommée à une forme standard, et permet de limiter les
effets de la variation linguistique.  Notre travail porte sur la
normalisation des entités nommées, et vise à optimiser les analyses de
corpus fines réalisées par la société TecKnowMetrix. Notre approche
combine plusieurs méthodes, telles que l¹utilisation de formes, de
calculs de similarité, ou encore de techniques endogènes. De plus, nous
plaçons l¹utilisateur au centre du processus de normalisation, afin
d¹obtenir des données parfaitement fiables et adaptées à ses besoins.


3-- Bilingual Document Clustering: Evaluating Cognates as Features / Le
groupage de documents bilingues : l¹évaluation des cognats comme
caractéristiques
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.denicia-carral.html
Claudia Denicia-Carral, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda et
David Pinto-Avendaño

Abstract: This paper focuses on the task of bilingual clustering, which
involves dividing a set of documents from two different languages into a
set of groups, so that documents with similar topics belong to the same
group, regardless of their source language. It mainly considers a
clustering approach that relies on the use of cognates as document
features.  Particularly, it proposes two straightforward methods that
extract cognates from their own target document collection and do not
require using any external bilingual resource, like parallel corpora or
a bilingual dictionary. Experimental results in two bilingual
collections that include news reports in English and Spanish are
encouraging. They indicate that cognates are relevant features for the
task of bilingual clustering, outperforming by more than 10% the results
achieved by other known approaches.

Résumé : Cet article se consacre à la tâche du groupage bilingue, qui
comprend la répartition d¹une série de documents appartenant à deux
langues différentes en une série de groupes, de telle façon que les
sujets similaires apparaissent dans le même groupe, quelle que soit la
langue d¹origine. Il s¹intéresse surtout à une approche de groupage qui
fait usage des cognats considérés comme des traits distinctifs des
documents. En particulier, il propose deux méthodes directes permettant
l¹extraction des cognats à partir de leur propre collection de documents
cibles, sans recourir à l¹utilisation de ressources bilingues externes,
telles que des corpus parallèles ou un dictionnaire bilingue. Nous avons
obtenu des résultats expérimentaux encourageants avec deux collections
bilingues incluant des bulletins de nouvelles en anglais et en
espagnol. Ces résultats indiquent que les cognats sont des traits
distinctifs valables pour le groupage de documents bilingues, et qu¹ils
permettent d¹obtenir des résultats dépassant de 10 % ceux que l¹on
obtient avec les autres approches connues.


4-- Automatic Modeling of Logical Connectors by Statistical Analysis of
Context / Modélisation automatique de connecteurs logiques par analyse
statistique du contexte
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.charton.html
Eric Charton et Juan-Manuel Torres-Moreno

Abstract: In this paper we present an algorithm for the enrichment of
the language model by a model of logical connectors. Using seed
connectors based on a corpus, our algorithm is capable of grouping
context-dependant logical connectors of identical meaning into
classes. This categorization of links may then be employed to generate
finite state machines (FSMs) capable of identifying logical articulation
of a phrase. In this capacity, it constitutes a first step towards an
automatic analysis of argumentative texts. We use this device (FSMs),
assisted by a language model, to rewrite automatically sentences in a
text processing system.

Résumé : Dans cet article, nous décrivons un algorithme d¹enrichissement
de modèle de langue par un modèle de connecteurs logiques. Notre
algorithme est capable, en partant de connecteurs amorces et en
s¹appuyant sur un corpus, de regrouper automatiquement des connecteurs
logiques de sens identiques, en fonction du contexte. Ce regroupement
peut être ensuite utilisé pour générer des automates à états finis
capables d¹identifier une articulation logique dans une phrase. À ce
titre, il constitue un premier pas en direction de l¹analyse automatique
de textes argumentatifs. Nous utilisons ce dispositif dans un système de
réécriture automatique de phrases, assisté par modèle de langue.

 
5-- A Sentiment-Based Digital Library of Movie Review Documents Using
Fedora / Une bibliothèque numérique de documents critiques de films
basée sur les sentiments en utilisant Fedora
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.na.html
Jin-Cheon Na, Tun Thura Thet, Arie Hans Nasution et Fauzi Munif Hassan

Abstract: This study develops a digital library of movie review
documents that supports sentiment-based browsing and searching. Firstly,
we develop an automatic method for in-depth sentiment analysis and
classification of movie review documents to provide sentiment
orientations toward multiple perspectives of movies, such as overall
opinion about the movie, director, and cast. By utilizing information
extraction techniques such as entity extraction, co-referencing, and
pronoun resolution, the review texts are segmented into multiple
sections where each section contains multiple sentences and discusses a
particular aspect of the reviewed movie. For each aspect section, a
machine-learning algorithm, Support Vector Machine (SVM), is applied to
determine sentiment orientation toward the target aspect.  Secondly a
prototype digital library is developed with the automatically analysed
data to show the usefulness of sentiment-based browsing and
searching. Using the system, the user can browse and search movies by
sentiment polarity (positive, neutral, or negative) of multiple aspects
in the movie. Finally, a usability evaluation is conducted to observe
the effectiveness of the sentiment-based digital library.

Résumé : Cette étude examine le développement d¹une bibliothèque
numérique de documents critiques de films permettant l¹exploration et la
recherche par sentiments. Pour commencer, nous développons une méthode
automatique pour l¹analyse en profondeur des sentiments et la
classification des documents critiques de films propres à fournir des
orientations à propos des sentiments capables d¹offrir des perspectives
multiples sur les films, comme par exemple l¹opinion générale sur le
film, sur le metteur en scène, et sur les acteurs. Grâce à l¹utilisation
de techniques d¹extraction d¹information telles que l¹extraction
d¹entités, le co-référencement, et la résolution de pronoms, les comptes
rendus sont segmentés en de multiples sections où chacune contient
plusieurs phrases et aborde un aspect particulier du film en question. À
chacune de ces sections on applique un algorithme d¹apprentissage
automatique, Support Vector Machine (SVM), qui détermine l¹orientation
du ou des sentiments pour cette section. Ensuite, nous développons un
prototype de bibliothèque numérique en utilisant les données analysées
automatiquement afin de montrer l¹utilité de l¹exploration et de la
recherche par sentiments. En utilisant ce système, l¹utilisateur peut
explorer et faire des recherches dans les films selon les polarités des
sentiments (positif, neutre, ou négatif) et ce, sur de nombreux aspects
des films. Pour finir, nous avons effectué une évaluation
d¹utilisabilité afin de vérifier l¹efficacité d¹une bibliothèque
numérique basée sur les sentiments.

 
A respected source of the most up-to-date research on library and
information science, The Canadian Journal of Information and Library
Science is recognized internationally for its authoritative bilingual
contributions to the field of information science. Established in 1976,
the journal is dedicated to the publication of research findings, both
in full-length and in brief format; reviews of books; software and
technology; and letters to the editor.
Pour en savoir plus : www.utpjournals.com/cjils
Suivez les Presses de l¹université de Toronto sur Facebook :
www.facebook.com/utpjournals

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list