Résumé
Un document XML est un arbre de noeuds. Cette nature hiérarchique est plus souple et large que de nombreux autres formats (tables, champs). De plus, cet arbre peut être contraint par un schéma, assurant l'homogénéité d'une collection de documents. Ces aspects, appartenant à la nature même de la norme, l'orientent tout directement pour en faire le format privilégié de documents structurés.
Les documents structurés sont des documents qui contiennent de l'information à propos de leurs structures logique, sémantique et intellectuelle. Pour mieux comprendre, voici un exemple d'un document non structuré suivi du même document mais cette fois-ci structuré:
<document>
<p>
<font size="20pt">
<b>Introduction</b>
</font>
</p>
<p>
<i>George Washington</i> n'a jamais gouverné le
<b>Washington</b> mais a résidé à
<b>Washington</b>.</p>
</document>
<document>
<section>
<titre>Introduction</titre>
<p>
<personne>George Wahsington</personne> n'a jamais
gouverné le <etat>Washington</etat> mais a résidé à
<ville>Washington</ville>.</p>
</section>
</document>
La différence entre ces documents est très grande. Dans le premier cas, il s'agit d'un document formaté pour une application particulière. Dans le deuxième cas, il s'agit d'une structure d'information, et c'est tout.
Supposons que nous bâtissions deux collections de documents semblables au précédent. Si nous créons les documents selon le premier modèle, nous pourrions obtenir un système d'informations intéressant, mais limité. Pour voir ses limites, essayons de voir ce que l'on peut faire avec la deuxième forme:
On peut afficher les documents en plusieurs formats
On peut créer un index des personnes, des états, des villes
On peut construire une table des matières automatiquement
Ces opérations sont permises parce que le deuxième document, contrairement au premier, ne contient pas d'informations sur les traitements, mais bien sur la nature des informations. Et il s'agit de l'intérêt principal des documents structurés.
La norme XML est appropriée pour définir des documents structurés pour deux raisons principales:
Le modèle de données est hiérarchique, ce qui est également le cas des documents textuels, hypermédias, et de bon nombre de structures de données.
Les documents XML peuvent être validés selon une grammaire, permettant ainsi de définir, et par le fait même limiter, les structures possibles et donc les traitements à effectuer.
En fait, il n'existe pas d'autres formats appropriés pour les documents structurés, hormis SGML qui est un surensemble d'XML. Dans le monde documentaire, les documents structurés sont amenés à prendre la place prépondérante qu'ils méritent.