Texte suivi ou enrichi et indexation multidimensionnelle Etude de faisabilité - Rapport d'étape

Pierrick Brihaye
Elise Lauranceau
Alain Jenouvrier
Malo Pichot

07 février 2003


Table des matières

Introduction
Problématiques
Système informatique et outil de saisie
DocBook, un modèle pour la documentation technique
XMLMind XML Editor, dit XXE
Indexation du texte suivi ou enrichi : exemple de documents d'information patrimoniale
Les arbres de concepts
Conclusion

Introduction

Problématiques

Lisibilité

La lisibilité est la première problématique du groupe de travail. Elle correspond à une volonté d'offrir aux lecteurs des documents rédigés, plus facilement lisibles, moins "jargonnants". En un mot, cela revient à placer la rédaction au centre du système documentaire. L'idée est de prendre de la distance par rapport à un système documentaire informatisé dont les contraintes techniques rejaillissent sur les documents eux-mêmes.

Nous partons donc avec l'idée de séparer physiquement le système d'indexation et le texte rédigé afin de ne pas surcharger ce dernier, et donc d'en dégrader la lisibilité.

Indexation et recherche

La deuxième idée est de proposer un système d'indexation pluri-disciplinaire et amendable. Il repose sur une analyse de texte isolant les idées qui répondent à la problématique de l'analyseur. Celle-ci peut complètement différer de celle du rédacteur, ce qui sera naturellement le cas lors de l'analyse de ressources "externes".

Ce travail s'effectue après la rédaction, en deux phases :

  1. Analyse sémantique

    La première phase relève donc de l'analyse de texte : elle consiste à isoler les champs sémantiques (on peut également parler de champs lexicaux) répondant à la (aux) problématique(s) de l'analyseur et, si possible, du lecteur.

  2. Conceptualisation

    La seconde phase est sans doute la plus importante. Il s'agit de regrouper , d' organiser , hiérarchiser les sémantiques isolées lors de la première phase. Cela consiste concrètement à créer un arbre[1] devant matérialiser les relations existant entre les différentes sémantiques isolées dans le texte.

    Au-delà de leur organisation, cette phase permet d'ajouter du sens aux idées du texte sans avoir à surcharger ce dernier. On peut, par exemple, utiliser un terme commun dans le texte et proposer son synonyme "scientifique" dans l'arbre. Ce système d' alias permet, entres autres, de respecter des lexiques précis, peut-être trop difficiles à appréhender par le lecteur.

    Cette phase s'inscrit clairement dans une perspective de recherche sur des outils informatiques.

Echange

L'utilisation du format XML [2] et du texte suivi (ou enrichi) permet un échange total avec d'autres disciplines et/ou d'autres systèmes documentaires.

Le langage XML

Langage balisé au même titre que SGML, HTML, XHTML [3], XML se présente en totale indépendance des systèmes d'exploitation et des logiciels. Ceci en fait une passerelle très intéressante entre systèmes et applications différents. On parle d'interopérabilité.

La création de l' ATICA [4] le 22 août 2002 a confirmé la volonté de l'État de voir l'ensemble de son administration passer à l'utilisation de ce langage. La création du projet "DAPA, modélisation" à la fin de l'année 2002 marque une nouvelle étape dans l'acquisition de XML au sein des services patrimoniaux du Ministère de la Culture et de la Communication.

L'autre avantage du langage XML est qu'il permet de distinguer le contenu (l'information) de la forme (la présentation). Un même document XML peut ainsi permettre plusieurs types de présentations dans des formats différents (HTML pour la navigation Web, PDF pour l'impression papier, etc). Nous pourrions même aller plus loin en déclinant, pour chacun de ces médias, autant de catégories éditoriales qu'il y a de types de lecteurs identifiés (administratifs, chercheur, gestionnaire, amateur, etc.).

Le texte suivi ou enrichi

Le système d'analyse des documents que nous proposons permet d'intégrer aisément la documentation issue de personnes extérieures au Service de l'Inventaire (autres services de la DAPA [5], autres services de recherche de l'État, autres organismes de recherche, etc.). Ceci tient aux points suivants :

  • XML est par essence interopérable ;

  • La conceptualisation des documents est facultative ;

  • La conceptualisation d'un document peut être réalisée par une personne autre que le rédacteur ;

  • Un document peut être re-conceptualisé suivant une nouvelle problématique de recherche sans supprimer les phases d'analyse précédentes ou sans interagir avec elles.

Système informatique et outil de saisie

DocBook, un modèle pour la documentation technique

DocBook est :

  • une DTD (Définition de Type de Document) permettant de produire tout type de documentation (article, livre, etc.), soit sous une forme imprimée, soit en ligne

Plusieurs outils sont disponibles pour la connaissance de DocBook et de son fonctionnement :

Comme son nom l'indique, XXE est un éditeur de documents XML. Il permet de travailler sur n'importe quelle DTD et plus particulièrement sur la DTD DocBook.

Son fonctionnement se base sur l'imbrication d'éléments structurant la documentation (texte divisé en parties, sections, insertion d'images, de tableaux, de métadonnées, de liens, etc.).

Pour une prise en main de cet outil, le Guide de l'utilisateur de l'éditeur XML de XMLmind V2.0, correspondant à la documentation du logiciel, a été traduit en français par Marie-Dominique Menant et Malo Pichot.

Le Guide de l'utilisateur avancé est en cours de traduction par Malo Pichot.

Indexation du texte suivi ou enrichi : exemple de documents d'information patrimoniale

L'indexation du texte rédigé se déroule en deux phases. La première est l'analyse sémantique. Il s'agit d'une analyse de texte destinées à isoler les sémantiques appartenant à la problématique du lecteur/analyseur. Ce dernier peut être le rédacteur lui-même ou une tierce personne. On comprend donc bien que le texte, rédigé suivant une problématique, celle du rédacteur, peut-être soumis à une autre vision, celle de l'analyseur. De cette confrontation de points de vue naîtra une dynamique de recherche traduite dans l'arbre de concepts dont la création compose la seconde phase de l'indexation.

Dans les tests que nous avons opérés jusqu'à présent, les documents créés conformément à la DTD DocBook grâce à l'outil de saisie XXE ont été indexés de manière à isoler les sémantiques "Inventaire".

Il s'agit, de manière assez simple, de "marquer" les mots ou les termes signifiants d'un texte, lesquels correspondent aux mots ou termes actuellement indexés dans le système classique de l'Inventaire. En l'absence d'élément dédié aux sémantiques dans DocBook, le balisage a été réalisé grâce à des éléments <emphasis> munis d'un attribut role= "highlight".

La création d'un système d' alias permet de mettre en oeuvre des correspondances entre un terme employé au fil d'un texte et une valeur conforme aux thésaurus Inventaire ou, d'une façon générale, à une liste d'autorités.

Exemples : Document Architecture

  1. Le Phare de la Pierre du Herpin

  2. L'usine de menuiserie Edouard Bergot

  3. La Cale de l'Épi

Exemples : Document Objets mobiliers

  1. L'ensemble du maître-autel de l'église de Saint-Benoît des Ondes

Les arbres de concepts

Un arbre de concepts ou carte de concepts (en anglais : concept maps ou mind maps ) permet de montrer graphiquement les relations entre des idées (concepts). Cette technique d'analyse prépare l'indexation de l'information contenue dans le texte rédigé. Elle permet d'expliciter (pour une machine) ce qui est implicite (pour le lecteur). Cette conceptualisation du texte rédigé consiste à organiser les idées et donc à préciser les relations qu'elles entretiennent entre elles. Elle facilite également l'intégration de nouvelles informations autour d'un corps de connaissances initiales plus ou moins organisées. Sa construction permet la génération de nouveaux produits intellectuels comme, par exemple, des interprétations ou des points de vue différents sur une problématique particulière. Sa structure arborescente facilite la réflexion convergente et l'association d'idées car toutes les idées sont connectées les unes aux autres.

Les principaux avantages de la technique d'arbre de concepts sont :

Application directe pour les rédacteurs/producteurs.  L'arbre de concepts permet la validation du texte et devient un véritable outil de recherche en mettant au jour des informations qui auraient pu être omises au cours de la rédaction. Sa construction entraîne ainsi une dynamique de recherche se traduisant par des allers et retours entre le texte et l'arbre de concepts.

Exemples : Document "architecture" d'Inventaire

  1. Le Phare de la Pierre du Herpin

  2. L'usine de menuiserie Edouard Bergot

  3. La Cale de l'Épi

Exemples : Document "objet mobilier" d'Inventaire

  1. L'ensemble du maître-autel de l'église de Saint-Benoît des Ondes

Conclusion

Les premières expérimentations démontrent que le concept de texte suivi ou enrichi semble particulièrement opérant. Il est capable de s'intégrer nativement au système de diffusion et de recherche documentaire SDX, surtout si celui-ci devait, comme cela est pressenti, gérer les indexations multidimensionnelles dont relèvent les "arbres de concepts".

Les tests sur les relations entre concepts méritent d'être menés plus avant. Il serait opportun de développer les recherches sur la profondeur des arbres, en utilisant notamment des liens inter-concepts, particulièrement sur des contextes sémantiques externes à ceux de l'Inventaire.

L'expérience ne pourra être validée que si les outils de production sont ergonomiques. Certes XXE dispose d'un gros potentiel car il est facilement programmable, ce qui permettrait, à peu de frais, de développer, en sus de ses fonctionnalités natives, des outils ergonomiques d'insertion de contenu (images, géographie, etc.), de création des liens, de conception des arbres de concepts, etc.

Une telle utilisation nécessiterait néanmoins l'utilisation de la version professionnelle de ce logiciel en plus d'une licence de développement. Il convient donc de mener parallèlement des recherches dans le monde du logiciel libre pour évaluer les outils disponibles offrant des fonctionnalités similaires à celles de XXE.



[1] Nous avons choisi de représenter cette organisation sous une forme arborescente comme le fait XML mais nous pourrions envisager d'autres représentations graphiques.

[2] XML : eXtented Markup Language.

[3] L'adresse donnée dans le texte correspond à la dernière version XHTML 2.0 publiée le 23 janvier 2003. Il existe une traduction française pour la première version XHTML 1.0 à cette adresse : http://www.la-grange.net/w3c/xhtml1/

[4] ATICA : Agence pour les Technologies de l'Information et de la Communication dans l'Administration.

[5] DAPA : Direction de l'Architecture du Patrimoine