ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Ingénierie des Systèmes d'Information

Networking and Information Systems
1633-1311
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 8/3 - 2003  - pp.33-54  - doi:10.3166/isi.8.3.33-54
TITRE
DocCat : un composant logiciel de catégorisation de documents et de marquage sémantique XML

RÉSUMÉ
Cet article présente DocCat, un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt du stockage dans une base XML est de faciliter la recherche de documents pertinents grâce au langage XQuery. La catégorisation implémente un nouvel algorithme hybride dit CKNN et qui combine les algorithmes de centroïdes et celui des k plus proches voisins (k-NN). En amont de cette phase, un modèle de représentation des documents doit d’abord être constitué. Cela a amené au développement d’une nouvelle approche (CBA) pour la sélection de termes caractéristiques, comprenant la pondération des termes puis le test de dépendance de x2 pour filtrer ces termes. En se basant sur ces poids qui quantifient les liens entre les documents et les catégories, la qualité de classement peut être améliorée. Aussi, deux nouvelles méthodes de calcul de score des catégories (CBW et IBW) ont été proposées. Ces méthodes sont intégrées à l’algorithme k- NN. Les tests préliminaires montrent qu’une recherche partielle dans la base d’apprentissage aboutit aux mêmes performances que la recherche totale. Cet article décrit globalement le composant DocCat et décrit son application à la gestion de dépêches boursières.

ABSTRACT
This paper presents one document categorization software component DocCat, which allows us to generate semantic tags and to store them in a database as XML documents. DocCat integrates supervised learning algorithms to categorize text documents into the predefined categories. Induced categories enable document tagging while interest of storing documents in XML database is to facilitating relevant document research with the help of XQuery language. In DocCat, one new hybride categorization algorithm called CKNN is implemented by combining the centroid algorithm and the k nearest neighbors (k-NN). To categorize documents, we have to represent them by a representation model suitable for categorization algorithms. This leads us to develop a new approach (CBA) to selecting characteristic terms. Two new methods (CBW and IBW) have also been proposed in order to calculate category score, which are integrated with the k-NN algorithm. The preliminary tests showed that the partial category researches by CKNN can achieve the same performances as ones of total category researches by for example k-NN. This paper describes DocCat and its applications to the management of stock news stories.

AUTEUR(S)
Georges GARDARIN, Huaizhong KOU, Karine ZEITOUNI

MOTS-CLÉS
catégorisation de documents, fouille de textes, XML.

KEYWORDS
document categorization, text mining, XML.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (280 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier