ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Ingénierie des Systèmes d'Information

Networking and Information Systems
1633-1311
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 21/5-6 - 2016  - pp.31-54  - doi:10.3166/isi.21.5-6.31-54
TITRE
Évaluation de la qualité des sources du web de données pour la résolution d'entités nommées

TITLE
Quality assessment of linked data sources for named-entity resolution

RÉSUMÉ
Les applications d’édition numérique de textes mettent à profit les URI du web de données afin d’identifier les entités nommées mentionnés et encore pour accéder à des informations complémentaires sur ces entités. On appelle résolution d’entités nommées la tâche qui consiste à assigner automatiquement une référence choisie au sein d’une base de connaissances à une mention d’entité nommée préalablement étiquetée dans un texte. Cependant, les sources de données du web de données mises à contribution pour ce type d’applications peuvent présenter des problèmes de qualité ayant des conséquences néfastes sur les résultats obtenus. Dans cet article, nous présentons une étude empirique réalisée afin d’évaluer la qualité de jeux de données du web de données en tant que bases de connaissances potentielles pour une application de résolution d’entités nommées dans le contexte des humanités numériques. Pour ce faire, nous nous appuyons sur des mesures d’évaluation de la qualité des sources de données du web de données de l’état de l’art mises en œuvre du point de vue de l’adéquation des données à un besoin particulier. Nous testons ces mesures sur des sources de données de deux types : une source de données du web de données généraliste et d’autres portant sur des domaines plus spécifiques. L’objectif visé est de déterminer s’il est possible d’évaluer a priori laquelle de ces sources de données sera la plus à même de produire de bons résultats de résolution d’entités nommées dans le cas de textes littéraires en français.


ABSTRACT
More applications in the Digital Humanities rely on Linked Data for the semantic enrichment of digital collections by means of URI, typically for providing background information about authors, works of art and historical places, mentioned in these collections. In this sense, Named Entity Linking (NEL) is the task of automatically assigning the appropriate referent to a named-entity mention tagged in a text. Nevertheless, data sources of the Web of Data still experiences quality issues which are critical for NEL and many Digital Humanities applications. The present article hence proposes an empirical study to assess the quality of any Linked Data (LD) set meant to be used as Knowledge Base in graph-based NEL. Our methodology deals with state-of-art quality aspects from a fitness-for-use perspective. We perform experiments on two French heritage texts and choose to test two types of linking: on the one hand to a generalistic Linked Data source and on the other to domain-specific ones. The proposed study assesses to which degree the different Linked Data sources are better suited to be used as Knowledge Base for some NEL use case.


AUTEUR(S)
Carmen BRANDO, Nathalie ABADIE, Francesca FRONTINI

MOTS-CLÉS
qualité des données, résolution d’entités nommées, web des données, humanités numériques.

KEYWORDS
data quality, named-entity linking, Linked Data, digital humanities.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (201 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier