ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Décisions, argumentation et traçabilité dans l’Ingénierie des Systèmes d’Information
En savoir plus >>
Autres revues >>

Ingénierie des Systèmes d'Information

Networking and Information Systems
1633-1311
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 11/2 - 2006  - pp.71-91  - doi:10.3166/isi.11.2.71-91
TITRE
Résumé automatique de texte avec un algorithme d'ordonnancement

RÉSUMÉ
Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. Les précédentes approches d'apprentissage pour le résumé automatique définissaient un ensemble de caractéristiques permettant d'associer à chaque phrase un vecteur de scores, puis d'entraîner un classifieur afin d'obtenir une combinaison de ces scores. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Cependant, des résultats théoriques récents suggèrent que le critère de classification peut être sous-optimal pour apprendre des fonctions de score. Ainsi, nous proposons d'utiliser le cadre offert par les algorithmes d'ordonnancement, qui permettent d'apprendre des combinaisons des caractéristiques en se concentrant sur les scores relatifs des phrases d'un même document. Les caractéristiques que nous utilisons sont basées sur l'état de l'art, mais aussi sur une nouvelle approche utilisant des groupements de mots qui cooccurrent dans les mêmes documents. Nous montrons empiriquement que les nouvelles caractéristiques, ainsi que la nouvelle approche d'apprentissage, obtiennent des résultats meilleurs que les approches précédentes sur deux corpus distincts.


ABSTRACT
This paper investigates a new approach for automatic text summarization based on a Machine Learning (ML) ranking algorithm. Previous ML approaches defined a set of features which were used to produce a vector of scores for each sentence in a given document and trained a classifier to make a global combination of these scores. The goal is to extract a subset of a document which most reflects its content. However, recent theoretical results suggest that the classification criterion may be suboptimal for learning scoring functions. Therefore, we propose to use ranking algorithms, which also combine the scores of different features but using a criterion which tends to reduce the relative misordering of sentences within a document. Features we use here are either based on the state-of-the-art or built upon word-clusters. These clusters are groups of words which often cooccur with each other, and can serve to expand a query or to enrich the representation of the sentences of the documents. We empirically show that the features used as well as the ranking algorithms outperforms state-of-the-art approaches on two distinct datasets.


AUTEUR(S)
Nicolas USUNIER, Massih-Reza AMINI, Patrick GALLINARI

MOTS-CLÉS
résumé automatique de texte, algorithmes d'ordonnancement, apprentissage automatique.

KEYWORDS
text summarization, ranking algorithms, machine learning.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (653 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier