ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Décisions, argumentation et traçabilité dans l’Ingénierie des Systèmes d’Information
En savoir plus >>
Autres revues >>

Ingénierie des Systèmes d'Information

Networking and Information Systems
1633-1311
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 21/5-6 - 2016  - pp.11-29  - doi:10.3166/isi.21.5-6.11-29
TITRE
Un état de l'art sur l'interconnexion des données du web

TITLE
A survey on web data linking

RÉSUMÉ
Les données sont publiées en continu sur le web et ce de manière décentralisée conduisant à un web de données hétérogènes. Au vu de l’énorme quantité de données publiées et de leur hétérogénéïté, se pose la difficulté d’accéder efficacement à l’information pertinente d’où la nécessité d’interconnecter ces données. Dans cet article, nous proposons un état de l’art des méthodes et outils traitant du problème de liage de données. La particularité de cette étude est que nous considérons le processus de liage comme un pipeline composé de trois phases : 1) pré-traitement, 2) appariement d’instances de données et 3) post-traitement. La tâche proprement dite d’appariement d’instances de données est certainement au cœur de ce processus. Cependant, ce qui se passe avant et ce qui se passe après cette tâche est d’une importance cruciale pour l’efficacité d’un outil de liage de données. Parmi les contributions importantes de cet article il y a la proposition d’une organisation des approches et outils dans une (pseudo-)taxonomie, en fonction des trois grandes étapes du processus. Cette classification comprend plusieurs catégories en fonction des tâches que chaque approche utilise et selon les techniques qui y sont appliquées. Nous considérons par ailleurs une quatrième catégorie de méthodes appelée multi-étapes comprenant les méthodes agissant sur plus d’une étape du processus de liage (ces méthodes peuvent être trouvées sur plusieurs feuilles de notre taxonomie). Enfin, nous proposons également une analyse comparative selon plusieurs critères des différentes approches et outils existants dans ce domaine.


ABSTRACT
Data are being published continuously on the web in a decentralized manner leading to a web of heterogeneous data. Given the large amount of published data, access to relevant information becomes difficult, hence the need to interconnect these data. In this paper, we propose a survey on approaches and tools addressing the data linking problem. The particularity of this survey is that we consider the linking processes as a pipeline composed of pre-processing, main matching and post-processing phases and we review the different techniques applied on each of these three steps in service of the global linking task. The actual task of linking two data instances is certainly at the core of this process; however, what happens before and what happens after this task is performed, is of crucial importance for the effectiveness and the efficiency of a data linking tool. One of the important contributions of this paper lies in the organization of the approaches and tools in a (pseudo-) taxonomy, with respect to the three major steps of the matching process (pre-processing, data matching and post-processing), splitting them further into several categories according to the tasks that each approach adresses and finally – according to the techniques that are applied. We additionally consider a fourth, multi-step category of methods – those that act on more than one step of the matching process (they can be found, on multiple leaves of our taxonomy). Finally, we describe and compare different state-of-the-art approaches and tools according to a set of criteria.


AUTEUR(S)
Manel ACHICHI, Zohra BELLAHSENE, Konstantin TODOROV

MOTS-CLÉS
web de données, liage de données, appariement d’instances.

KEYWORDS
web of data, data linking, instance matching.

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (782 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier