Documents structurés

Remarque

Matériel adapté de Marcoux, Yves. 2007. Notes de cours du SCI6052 Information documentaire numérique. EBSI, FAS, UdeM.

Parmi les formats de fichiers qui sous-tendent le Web se trouvent les formats de documents structurés. HTML est un exemple de ce type de format comme l'est XML. L'idée de base d'un format de documents structurés est qu'il s'agit d'un format qui permet de décrire la structure logique d'un document.

ExempleExemple de la structure logique d'un courriel

Prenons l'exemple du courriel qui suit :

COURRIEL

De: ana.conda@escie.uestenciel.ca

À: ali.gator@escie.uestenciel.ca; rhino.c.ross@escie.uestenciel.ca

Objet: Réunion du COSP

Veuillez noter que la réunion du comité de suivi de programme de demain est reportée.

SVP m'aviser de vos disponibilités la semaine prochaine.

Bonne journée,

Ana

Par "structure logique" on entend les éléments qui le composent soit ici un auteur, des destinataires, un objet et le message comme tel. Cette structure logique peut être représentée sous forme d'un organigramme comme suit :

Structure logique d'un courriel

Ainsi un format de documents structurés permet de représenter cette structure logique. Par exemple, le courriel pourrait être représenté de la manière suivante en XML :

1
<courriel>
2
	<expediteur>ana.conda@escie.uestenciel.ca</expediteur>
3
	<destinataire>
4
		<mel>ali.gator@escie.uestenciel.ca</mel>
5
		<mel>rhino.c.ross@escie.uestenciel.ca</mel>
6
	</destinataire>
7
	<objet>Réunion du COSP</objet>
8
	<message>
9
		<para>Veuillez noter que la réunion du comité de suivi de programme de demain est reportée.</para>
10
		<para>SVP m'aviser de vos disponibilités la semaine prochaine.</para>
11
		<para>Bonne journée,</para>
12
		<para>Ana</para>
13
	</message>
14
</courriel>

XML est un format dit structuré, ou format de documents structurés, car il permet le balisage descriptif logique des documents. Par balisage descriptif logique, on entend le fait que le format permet l'ajout de balises descriptives au texte pour en indiquer la structure logique. Examinons de plus près la ligne suivante :

1
<auteur>Jean Tremblay</auteur>

Dans la syntaxe XML, les balises descriptives sont des chaînes de caractères entourées par les caractères < et > comme, par exemple, <expediteur>. Le texte est encadré par deux balises descriptives, une qui en indique le début et l'autre la fin. Comme on peut le voir dans l'exemple, la balise de fin se distingue dans sa syntaxe par l'ajout du caractère / devant la chaîne de caractères de la balise.

Au niveau sémantique, la chaîne de caractères de la balise descriptive est un identificateur générique qui représente la nature du texte qu'elle encadre. Dans l'exemple ci-dessous, elle indique que ana.conda@escie.uestenciel.ca est l'expéditrice du courriel.

L'extrait ci-dessous permet de comprendre une autre caractéristique d'un format structuré, soit le fait que certains éléments peuvent être imbriqués :

1
<message>
2
	<para>Veuillez noter que la réunion du comité de suivi de programme de demain est reportée.</para>
3
	<para>SVP m'aviser de vos disponibilités la semaine prochaine.</para>
4
	<para>Bonne journée,</para>
5
	<para>Ana</para>
6
</message>

On remarque en effet ici que l'on retrouve quatre éléments para à l'intérieur d'un élément message. Cette imbrication permet de représenter la structure logique du courriel. L'organigramme présenté précédemment montre en effet que le message d'un courriel se compose de paragraphes.

Une autre caractéristique importante d'un format structuré est qu'il s'agit d'un format texte, c'est-à-dire qu'on peut le lire à partir d'un éditeur de texte simple comme Bloc-notes ou TextEdit.

Finalement, il est à noter que le balisage descriptif logique en XML ne véhicule explicitement aucune information quant à la mise en forme des contenus. Dans l'exemple, l'élément objet ne précise en rien quel visuel l'objet du courriel doit prendre dans le logiciel de messagerie. On cherche en effet à séparer le contenu comme tel de son traitement (par exemple de sa mise en forme). La mise en forme dans XML se fera dans un autre fichier, une feuille de styles par exemple.

On retrouve deux "familles" de formats de documents structurés :

  • Certains formats de documents structurés peuvent servir à décrire n'importe quel type de document comportant une structure logique. Ils peuvent aussi bien servir à décrire la structure d'un courriel, que celle d'un livre ou celle d'une fiche de recette! On parlera en ce cas d'un format de balisage généralisable. XML est un exemple de format de balisage généralisable comme il propose un métalangage permettant de décrire n'importe quelle structure logique. Il permet en effet de définir l'ensemble des balises d'une structure soit dans une définition de documents (document type definition DTD) ou un schéma XML.

  • D'autres formats de documents structurés décrivent la structure d'un seul type de document. C'est le cas par exemple du format HTML que nous explorerons un peu plus tard. On retrouve dans le format HTML un ensemble prédéfini d'éléments qui permettent de représenter la structure logique d'une page Web.

Historique des formats de documents structurés

XML n'est pas le seul format de documents structurés et ce n'est pas non plus le premier à être apparu ou le plus récent! Le schéma ci-dessous trace l'évolution des formats de documents structurés et le tableau qui suit décrit les caractéristiques des formats.

Évolution des formats de documents structurés
Caractéristiques des principaux formats de documents structurés

Date de création

Format

Normalisation

Type

Commentaires

1969

SGML (Standard Generalized Markup Language)

ISO/IEC 8879:1986

Métalangage

  • Développé à partir d'un produit d'IBM GML (auteurs Goldfarb, Mosher, Lorie)

1989

HTML (HyperText Markup Language)

ISO/IEC 15445:2000

Type de document spécifique : page Web

  • Application SGML c'est-à-dire que SGML a été utilisé pour décrire la structure logique d'une page Web. Cette description correspond à HTML.

  • Plusieurs versions HTML. La plus récente est HTML 5 (recommandation finale en 2014)

1998

XML (eXtensible Markup Language)

Recommandation du W3C

Métalangage

  • La trop grande complexité de SGML en ayant ralenti l'adoption, XML a été créé. Il s'agit d'un métalangage moins complexe et un peu moins puissant

2000

XHTML (eXtensible HyperText Markup Language)

Recommandation du W3C

Type de document spécifique : page Web

  • Ré-écriture du format HTML à partir de XML. XML a ainsi été utilisé pour décrire la structure logique d'une page web. Cette description correspond à XHTML.

  • XHTML possède ainsi certaines caractéristiques XML absentes de HTML comme une syntaxe plus stricte à plusieurs égards.

  • Plusieurs versions XHTML. La plus récente est XHTML5.

Avantages et désavantages des formats de documents structurés

Les avantages à utiliser des formats de documents structurés sont nombreux, comme illustré dans le tableau ci-dessous. Si les désavantages semblent moins nombreux, il n'en demeure pas moins un obstacle important dans certains contextes à leur adoption.

Avantages et désavantages des formats de documents structurés

Avantages

Désavantages

  • Balisage logique qui permet, en distinguant le contenu de ses traitements (par exemple la mise en forme) de :

    • faciliter la réutilisation de l'information

    • diviser le travail entre auteurs, typographes, informaticiens, etc.

  • Balisage logique qui permet, en identifiant la nature des contenus, de faciliter leur indexation automatique et de faire des recherches d'information plus efficaces

  • Formats normalisés qui offrent une meilleure garantie quant à leur pérennité et leur interopérabilité

  • Surtout un changement « culturel » pour les auteurs qui passent d'un logiciel de traitement de texte

Conséquences pour le professionnel ou la professionnelle de l'information

L'utilisation des formats de documents structurés demande de développer des habiletés entre autres sur le plan de la modélisation de l'information. En effet, s'il faut développer une chaîne de traitement XML pour un nouveau type de document, il faut être en mesure d'en modéliser la structure. Il faut bien comprendre ces chaînes de traitement, en particulier les possibilités de traitement automatique. Finalement, cela demande aussi la maîtrise des outils nécessaires pour leur traitement.

Remarque

Si vous êtes tout particulièrement intéressé.e aux documents structurés, le cours INU3011 Documents structurés est pour vous!