ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Décisions, argumentation et traçabilité dans l’Ingénierie des Systèmes d’Information
En savoir plus >>
Autres revues >>

Ingénierie des Systèmes d'Information

Networking and Information Systems
1633-1311
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 15/2 - 2010  - pp.29-48  - doi:10.3166/isi.15.2.29-48
TITRE
Indexation rapide de documents audio par traitement morphologique de la parole

TITLE
Audio fast indexing by speech morphological processing

RÉSUMÉ
La parole véhicule la plus grande part de la sémantique contenue dans les documents audio et audio-visuels. Les systèmes de reconnaissance automatique de la parole (RAP) sont donc aujourd'hui centraux pour les systèmes d'indexation et de recherche d'information, mais nécessitent des corpus annotés pour la construction des modèles. Afin de contourner ce verrou technologique, qui est au coeur du « semantic gap », nous proposons une nouvelle approche d'indexation basée sur une mesure directe de similarité entre des représentations parcimonieuses temps-fréquence du mot recherché et du document. Le principe de notre approche est de structurer la parole par un codage des zones articulatoires stables versus instables des phonèmes. Cette approche comporte deux intérêts majeurs : compression du signal et gommage d'artefacts. L'indexation est alors générée par une recherche morphologique, locuteur indépendant, de motif binaire du mot dans celui du document audio.


ABSTRACT
Speech conveys most of the semantics contained in the audio and audio-visual document. Thus automatic speech recognition systems (ASR) are important for indexing systems and information research, but they require annotated corpora for the construction of models. To overcome this heart of the "semantic gap", we present in this article a new indexing approach based on a similarity direct measure between the word and the document through a parsimonious time-frequency representation. The principle of our approach is to structure speech by coding areas of stable versus unstable parts of phonemes. This approach has two major interests: Signal compression and artifacts reduction. Indexing is then generated by a speaker independent morphological search, of binary pattern of the word in audio documents.


AUTEUR(S)
Fraihat SALAM, Hervé GLOTIN

MOTS-CLÉS
indexation audio, recherche d'information, recherche morphologique, quantification temps-frequence.

KEYWORDS
audio indexing, information retrieval, morphological research, quantification time-frequency.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (573 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier