Documents structurés
Remarque :
Matériel adapté de Marcoux, Yves. 2007. Notes de cours du SCI6052 Information documentaire numérique. EBSI, FAS, UdeM.
Parmi les formats de fichiers qui sous-tendent le Web se trouvent les formats de documents structurés. HTML est un exemple de ce type de format comme l'est XML. L'idée de base d'un format de documents structurés est qu'il s'agit d'un format qui permet de décrire la structure logique d'un document.
Exemple : Exemple de la structure logique d'un courriel
Prenons l'exemple du courriel qui suit :
COURRIEL
De: ana.conda@escie.uestenciel.ca
À: ali.gator@escie.uestenciel.ca
; rhino.c.ross@escie.uestenciel.ca
Objet: Réunion du COSP
Veuillez noter que la réunion du comité de suivi de programme de demain est reportée.
SVP m'aviser de vos disponibilités la semaine prochaine.
Bonne journée,
Ana
Par "structure logique" on entend les éléments qui le composent soit ici un auteur, des destinataires, un objet et le message comme tel. Cette structure logique peut être représentée sous forme d'un organigramme comme suit :
Ainsi un format de documents structurés permet de représenter cette structure logique. Par exemple, le courriel pourrait être représenté de la manière suivante en XML :
<courriel>
<expediteur>ana.conda@escie.uestenciel.ca</expediteur>
<destinataire>
<mel>ali.gator@escie.uestenciel.ca</mel>
<mel>rhino.c.ross@escie.uestenciel.ca</mel>
</destinataire>
<objet>Réunion du COSP</objet>
<message>
<para>Veuillez noter que la réunion du comité de suivi de programme de demain est reportée.</para>
<para>SVP m'aviser de vos disponibilités la semaine prochaine.</para>
<para>Bonne journée,</para>
<para>Ana</para>
</message>
</courriel>
XML est un format dit structuré, ou format de documents structurés, car il permet le balisage descriptif logique des documents. Par balisage descriptif logique, on entend le fait que le format permet l'ajout de balises descriptives au texte pour en indiquer la structure logique. Examinons de plus près la ligne suivante :
<auteur>Jean Tremblay</auteur>
Dans la syntaxe XML, les balises descriptives sont des chaînes de caractères entourées par les caractères < et > comme, par exemple, <expediteur>
. Le texte est encadré par deux balises descriptives, une qui en indique le début et l'autre la fin. Comme on peut le voir dans l'exemple, la balise de fin se distingue dans sa syntaxe par l'ajout du caractère / devant la chaîne de caractères de la balise.
Au niveau sémantique, la chaîne de caractères de la balise descriptive est un identificateur générique qui représente la nature du texte qu'elle encadre. Dans l'exemple ci-dessous, elle indique que ana.conda@escie.uestenciel.ca est l'expéditrice du courriel.
L'extrait ci-dessous permet de comprendre une autre caractéristique d'un format structuré, soit le fait que certains éléments peuvent être imbriqués :
<message>
<para>Veuillez noter que la réunion du comité de suivi de programme de demain est reportée.</para>
<para>SVP m'aviser de vos disponibilités la semaine prochaine.</para>
<para>Bonne journée,</para>
<para>Ana</para>
</message>
On remarque en effet ici que l'on retrouve quatre éléments para
à l'intérieur d'un élément message
. Cette imbrication permet de représenter la structure logique du courriel. L'organigramme présenté précédemment montre en effet que le message d'un courriel se compose de paragraphes.
Une autre caractéristique importante d'un format structuré est qu'il s'agit d'un format texte, c'est-à-dire qu'on peut le lire à partir d'un éditeur de texte simple comme Bloc-notes ou TextEdit.
Finalement, il est à noter que le balisage descriptif logique en XML ne véhicule explicitement aucune information quant à la mise en forme des contenus. Dans l'exemple, l'élément objet
ne précise en rien quel visuel l'objet du courriel doit prendre dans le logiciel de messagerie. On cherche en effet à séparer le contenu comme tel de son traitement (par exemple de sa mise en forme). La mise en forme dans XML se fera dans un autre fichier, une feuille de styles par exemple.
On retrouve deux "familles" de formats de documents structurés :
Certains formats de documents structurés peuvent servir à décrire n'importe quel type de document comportant une structure logique. Ils peuvent aussi bien servir à décrire la structure d'un courriel, que celle d'un livre ou celle d'une fiche de recette! On parlera en ce cas d'un format de balisage généralisable. XML est un exemple de format de balisage généralisable comme il propose un métalangage permettant de décrire n'importe quelle structure logique. Il permet en effet de définir l'ensemble des balises d'une structure soit dans une définition de documents (document type definition DTD) ou un schéma XML.
D'autres formats de documents structurés décrivent la structure d'un seul type de document. C'est le cas par exemple du format HTML que nous explorerons un peu plus tard. On retrouve dans le format HTML un ensemble prédéfini d'éléments qui permettent de représenter la structure logique d'une page Web.
Historique des formats de documents structurés
XML n'est pas le seul format de documents structurés et ce n'est pas non plus le premier à être apparu ou le plus récent! Le schéma ci-dessous trace l'évolution des formats de documents structurés et le tableau qui suit décrit les caractéristiques des formats.
Date de création | Format | Normalisation | Type | Commentaires |
---|---|---|---|---|
1969 | SGML (Standard Generalized Markup Language) | ISO/IEC 8879:1986 | Métalangage |
|
1989 | HTML (HyperText Markup Language) | ISO/IEC 15445:2000 | Type de document spécifique : page Web |
|
1998 | XML (eXtensible Markup Language) | Recommandation du W3C | Métalangage |
|
2000 | XHTML (eXtensible HyperText Markup Language) | Recommandation du W3C | Type de document spécifique : page Web |
|
Avantages et désavantages des formats de documents structurés
Les avantages à utiliser des formats de documents structurés sont nombreux, comme illustré dans le tableau ci-dessous. Si les désavantages semblent moins nombreux, il n'en demeure pas moins un obstacle important dans certains contextes à leur adoption.
Avantages | Désavantages |
---|---|
|
|
Conséquences pour le professionnel ou la professionnelle de l'information
L'utilisation des formats de documents structurés demande de développer des habiletés entre autres sur le plan de la modélisation de l'information. En effet, s'il faut développer une chaîne de traitement XML pour un nouveau type de document, il faut être en mesure d'en modéliser la structure. Il faut bien comprendre ces chaînes de traitement, en particulier les possibilités de traitement automatique. Finalement, cela demande aussi la maîtrise des outils nécessaires pour leur traitement.
Remarque :
Si vous êtes tout particulièrement intéressé.e aux documents structurés, le cours INU3011 Documents structurés est pour vous!