DocCat : un composant logiciel de catégorisation de documents et de marquage sémantique XML
Cet article présente DocCat, un composant logiciel de catégorisation de documents.
Cet outil permet de générer des balises sémantiques et de les stocker dans une base de
données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour
classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites
permettent le balisage du document. L’intérêt du stockage dans une base XML est de faciliter
la recherche de documents pertinents grâce au langage XQuery. La catégorisation
implémente un nouvel algorithme hybride dit CKNN et qui combine les algorithmes de
centroïdes et celui des k plus proches voisins (k-NN). En amont de cette phase, un modèle de
représentation des documents doit d’abord être constitué. Cela a amené au développement
d’une nouvelle approche (CBA) pour la sélection de termes caractéristiques, comprenant la
pondération des termes puis le test de dépendance de x2 pour filtrer ces termes. En se basant
sur ces poids qui quantifient les liens entre les documents et les catégories, la qualité de
classement peut être améliorée. Aussi, deux nouvelles méthodes de calcul de score des
catégories (CBW et IBW) ont été proposées. Ces méthodes sont intégrées à l’algorithme k-
NN. Les tests préliminaires montrent qu’une recherche partielle dans la base d’apprentissage
aboutit aux mêmes performances que la recherche totale. Cet article décrit globalement le
composant DocCat et décrit son application à la gestion de dépêches boursières.
This paper presents one document categorization software component DocCat,
which allows us to generate semantic tags and to store them in a database as XML
documents. DocCat integrates supervised learning algorithms to categorize text documents
into the predefined categories. Induced categories enable document tagging while interest of
storing documents in XML database is to facilitating relevant document research with the
help of XQuery language. In DocCat, one new hybride categorization algorithm called CKNN
is implemented by combining the centroid algorithm and the k nearest neighbors (k-NN). To
categorize documents, we have to represent them by a representation model suitable for
categorization algorithms. This leads us to develop a new approach (CBA) to selecting
characteristic terms. Two new methods (CBW and IBW) have also been proposed in order to
calculate category score, which are integrated with the k-NN algorithm. The preliminary tests
showed that the partial category researches by CKNN can achieve the same performances as
ones of total category researches by for example k-NN. This paper describes DocCat and its
applications to the management of stock news stories.
G.GARDARIN, H.KOU, K.ZEITOUNI
catégorisation de documents, fouille de textes, XML.
document categorization, text mining, XML.
Français
|