ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Décisions, argumentation et traçabilité dans l’Ingénierie des Systèmes d’Information
En savoir plus >>
Autres revues >>

Ingénierie des Systèmes d'Information

Networking and Information Systems
1633-1311
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 8/3 - 2003  - pp.55-70  - doi:10.3166/isi.8.3.55-70
TITLE
Text Representation with WordNet Synsets Using Soft Sense Disambiguation

RÉSUMÉ
Le traitement de l'information textuelle dépend de façon critique de la représentation adéquate des textes. La représentation sous la forme d'un sac de mots qui le composent est un moyen couramment utilisé. Cette représentation présente deux inconvénients, à savoir la polysémie et la synonymie qui sont les conséquences de l'ambiguïté des mots et du manque d'information sur les relations entre les mots. Cet article décrit un modèle de représentation d'un texte au moyen des synsets proposés dans WordNet. Ces synsets permettent la représentation des concepts qui sous-tendent les mots du texte. Une approche de désambiguïsation du sens est proposée. La représentation textuelle ainsi obtenue a pour objectif de traduire les idées clés que les textes contiennent. Ce mécanisme a été évalué à l'aide d'une mesure de qualité fondée sur le contenu informationnel de la représentation textuelle. Cette approche a été appliquée au problème de classification de texte et donne des résultats encourageants.


ABSTRACT
Text information processing depends critically on the proper representation of texts. A common and naive way of representing a text is as a bag of its component words. This representation suffers primarily from two drawbacks, viz., polysemy and synonymy which arise because of the ambiguity of the words and the lack of information about the relations between the words. This paper presents a model for representing a text in terms of the synsets in the WordNet. These synsets stand for concepts which correspond to the words of the text. In particular, a soft sense disambiguation approach has been proposed. The text representation so obtained is found to convey the key ideas that the texts deal with. This scheme has been evaluated using a goodness measure based the information content of the representation of the text. As an actual application, the problem of text classification has been taken up, and the results are encouraging.


AUTEUR(S)
Ganesh RAMAKRISHNANAN, Pushpak BHATTACHARYYA

MOTS-CLÉS
WordNet, synonymie, polysémie, graphe sémantique, classement de synset, vecteur de document, pivot et autorisation, réseau de croyances bayésiennes, information mutuelle, classification de texte.

KEYWORDS
WordNet, Synonymy, Polysemy, Semantic Graph, Synset-Ranking, Document Vectors, Hubs and Authorities, Bayesian Belief Networks, Mutual Information, Text Classification.

CITATIONS
isi.revuesonline.com/revues/24/citation/3951.html

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (268 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier