Résumé
La norme XML définit très peu de choses (éléments, attributs...). Cependant, cette syntaxe offre des degrés de liberté et de structuration qu'on ne trouve pas dans s'autres formats. Tables, champs, hiérarchie, texte riche ; plusieurs combinaisons de structuration sont possibles dans un même document XML.
Tables. XML est un format structuré, il permet donc de conserver toutes les informations de type tabulaire.
<auteur>
<nom>Glorieux</nom>
<prenom>Frédéric</prenom>
<organisation>AJLSM</organisation>
</auteur>
Champs. XML est un format textuel dont la liste et le nombre des champs ne sont pas obligatoirement limités à l' avance (contrairement à SQL). On peut donc répéter des informations type champ=valeur sans refondre la structure . On trouve la même possibilité avec des applications telles "syndoc", "texto", ou des formats standards comme vCard, vCalendar, ou marc.
<notice id="W3C">
<titre xml:lang="en">The World Wide Web consortium</titre>
<titre xml:lang="fr">Le consortium "www" (du réseau Internet)</titre>
<url>http://www.w3.org/</url>
</notice>
Hiérarchique. XML a la particularité d'être complètement hiérarchique. Cet aspect est spécialement utile pour par exemple, représenter l'arbre d'un thesaurus, ou bien des objets archivistiques [dtd EAD] .
<section>
<section>
...
</section>
</section>
Rédactionnel. XML, enfin, autorise des contenus "mixtes", c'est-à-dire, que l'on peut distinguer une information à l'intérieur du texte. On peut bien sûr effectuer des distinctions "typographiques" (gras, italique), mais l'intérêt d'un système d'informations commence avec le balisage "sémantique". HTML nous a habitué à voir des liens cliquables ou des images en cours de paragraphes, des applications peuvent tirer parti de bien d'autres informations (extraction d'index, de bibliographies...).
<paragraphe>
L'in<gras>format</gras>ique, ce ne sont pas que des applications,
ce sont aussi des <concept reference="format">formats</concept>.
Ainsi une organisation comme le <lien cible="#W3C">[W3C]</lien> ...
</paragraphe>
Un système d'informations peut tirer grand avantage d'un format comme XML. Cependant, pour que les documents soient utilisables, il vaut mieux qu'ils partagent une structure commune, précisément définie, pour que des applications puissent en exploiter plus en profondeur le contenu. Il faut un schéma.
Plusieurs attitudes sont possibles.
Avantages
Complètement approprié aux informations existantes et désirées.
Inconvénients
Nécessite un développement applicatif complet.
Ne profite pas de l'expérience acquise par d'autres communautés.
Difficilement communicable.
Exemples. La plupart des organisations qui se sont mises à XML depuis 1998 ont commencé ainsi. Les standards qui s'imposent sortent souvent de cette expérience, (ainsi que des standards en d'autres formats).
Avantages
Partager un vocabulaire normalisé.
Confronter ses données à un modèle plus large, ayant déjà répondu aux besoins d'autres systèmes.
Mutualiser l'effort de développement (applications commerciales, mais surtout logiciel libre).
Inconvénients
Ne tire pas toujours tout le parti de XML (hiérarchie, contenus mixtes).
Exemples
Dublin Core, métadonnées bibliographiques.
BiblioML, notices bibliographiques.
vCard.XML, carnet d'adresses.
Avantages
Garder un document rédactionnel adapté à la lecture humaine et à la diffusion publique, sans perdre la structure qui peut intéresser les applications.
Inconvénients
Un format rédactionnel est souvent plus libre. Il faut en faire des adaptations par type de documents pour assurer la présence des champs obligatoires à traiter.
Exemples
XHTML (adaptation XML de HTML)
![]() |
TEI (Text Encoding Initiative), utilisé dans les milieux académiques pour le balisage de textes littéraires.
![]() |
DocBook, le standard de la technique.