ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Décisions, argumentation et traçabilité dans l’Ingénierie des Systèmes d’Information
En savoir plus >>
Autres revues >>

Ingénierie des Systèmes d'Information

Networking and Information Systems
1633-1311
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 8/5-6 - 2003  - pp.109-126  - doi:10.3166/isi.8.5-6.109-126
TITRE
Modèle de couplage de documents structurés et de bases de données. Le projet DRUID

RÉSUMÉ
Dans cet article, nous présentons DRUID, un système de saisie d'information sous forme de documents semi-structurés, lié à une base de données relationnelle. Les documents saisis par l'utilisateur sont des documents centrés paragraphes, c'est-à-dire que les balises encadrent des portions de texte libre en langue naturelle, et non des données unitaires. Le DRUID Core Module utilise un ensemble de règles permettant d'extraire de ces paragraphes les données unitaires prévues dans la base de données. Les règles sont composées d'une extension de la syntaxe XSL pour la manipulation de la structure du document, ainsi que de transducteurs à états finis pour l'appel à un processeur de langue naturelle. Les données ainsi extraites sont tout d'abord déposées dans un document centré données puis dans la base de données. L'intérêt d'un tel système est d'associer à la fois la souplesse des interfaces documentaires, et la puissance des langages d'interrogation des bases de données relationnelles. Chaque requête à la base permet d'avoir une vue tabulaire des informations demandées, ainsi qu'un accès aux documents sources de l'information.


ABSTRACT
In this paper, we present the DRUID system that links document-based information capture to relational database querying. End-users capture paragraph-centric documents where tags embrace paragraphs of free text. The DRUID Core Module employs a set of rules to extract relevant data from free text paragraphs. Some rules are written as XSL extension elements for document structure management, and others invoke finite state transducers for natural language processing and information extraction. Extracted data are stored in both a data-centric document and in the database. This system is interesting because it associates documents flexibility with databases querying efficiency. Queries to the database return the classical data tables as well as links to the source documents.


AUTEUR(S)
Frédérique LAFOREST, Youakim BADR

MOTS-CLÉS
documents structurés, extraction de données, interface utilisateur, base de données, XML.

KEYWORDS
structured documents, data extraction, user interface, database, XML.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (233 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier