ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Décisions, argumentation et traçabilité dans l’Ingénierie des Systèmes d’Information
En savoir plus >>
Autres revues >>

Ingénierie des Systèmes d'Information

Networking and Information Systems
1633-1311
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 19/4 - 2014  - pp.61-86  - doi:10.3166/isi.19.4.61-86
TITRE
Crawl intelligent et adaptatif d’applications web pour l’archivage du web

TITLE
Intelligent and adaptive crawling of web applications for web archiving

RÉSUMÉ
Les sites web sont par nature dynamiques, leur contenu et leur structure changeant au fil du temps ; de nombreuses pages sur le web sont produites par des systèmes de gestion de contenu (CMS). Les outils actuellement utilisés par les archivistes du web pour préserver le contenu du web collectent et stockent de manière aveugle les pages web, en ne tenant pas compte du CMS sur lequel le site est construit ni du contenu structuré de ces pages web. Nous présentons dans cet article un application-aware helper (AAH) qui s’intègre à une chaîne d’archivage classique pour accomplir une collecte intelligente et adaptative des applications web. Parce que l’AAH est conscient des applications web actuellement collectées, il est capable de raffiner la liste des URL à traiter et d’ajouter à l’archive de l’information sémantique sur le contenu extrait. Afin de traiter les changements possibles de structure des applications web, notre AAH inclut un module d’adaptation qui rend la collecte résistante aux petits changements de structure du site web. Nous démontrons la valeur de notre approche en comparant la sortie et l’efficacité du AAH par rapport à des robots web traditionnels, également en présence de changements de structure.


ABSTRACT
Web sites are dynamic in nature with content and structure changing overtime; many pages on the Web are produced by content management systems (CMSs). Tools currently used by Web archivists to preserve the content of the Web blindly crawl and store Web pages, disregarding the CMS the site is based on and whatever structured content is contained in Web pages. We present in this paper an application-aware helper (AAH) that fits into an archiving crawl processing chain to perform intelligent and adaptive crawling of Web applications. Because the AAH is aware of the Web application currently crawled, it is able to refine the list of URLs to process and to extend the archive with semantic information about extracted content. To deal with possible structure changes in Web applications, our AAH includes an adaptation module that makes crawling resilient to small changes in the structure of Web sites. We show the value of our approach by comparing the output and efficiency of the AAH with respect to regular Web crawlers, also in the presence of structure change.


AUTEUR(S)
Muhammad FAHEEM, Pierre SENELLART

MOTS-CLÉS
système de gestion de contenu, crawling, application web, archivage du web, XPath.

KEYWORDS
content management system, crawling, Web application, Web archiving, XPath.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (985 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier