Résumé automatique de texte avec un algorithme d'ordonnancement
Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. Les précédentes approches d'apprentissage pour le résumé automatique définissaient un ensemble de caractéristiques permettant d'associer à chaque phrase un vecteur de scores, puis d'entraîner un classifieur afin d'obtenir une combinaison de ces scores. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Cependant, des résultats théoriques récents suggèrent que le critère de classification peut être sous-optimal pour apprendre des fonctions de score. Ainsi, nous proposons d'utiliser le cadre offert par les algorithmes d'ordonnancement, qui permettent d'apprendre des combinaisons des caractéristiques en se concentrant sur les scores relatifs des phrases d'un même document. Les caractéristiques que nous utilisons sont basées sur l'état de l'art, mais aussi sur une nouvelle approche utilisant des groupements de mots qui cooccurrent dans les mêmes documents. Nous montrons empiriquement que les nouvelles caractéristiques, ainsi que la nouvelle approche d'apprentissage, obtiennent des résultats meilleurs que les approches précédentes sur deux corpus distincts.
This paper investigates a new approach for automatic text summarization based on a Machine Learning (ML) ranking algorithm. Previous ML approaches defined a set of features which were used to produce a vector of scores for each sentence in a given document and trained a classifier to make a global combination of these scores. The goal is to extract a subset of a document which most reflects its content. However, recent theoretical results suggest that the classification criterion may be suboptimal for learning scoring functions. Therefore, we propose to use ranking algorithms, which also combine the scores of different features but using a criterion which tends to reduce the relative misordering of sentences within a document. Features we use here are either based on the state-of-the-art or built upon word-clusters. These clusters are groups of words which often cooccur with each other, and can serve to expand a query or to enrich the representation of the sentences of the documents. We empirically show that the features used as well as the ranking algorithms outperforms state-of-the-art approaches on two distinct datasets.
N.USUNIER, M.AMINI, P.GALLINARI
résumé automatique de texte, algorithmes d'ordonnancement, apprentissage automatique.
text summarization, ranking algorithms, machine learning.
Français
|