Copyright © 2023 Yves MARCOUX; dernière modification de cette page : 2023-02-20.

INU3011 Documents structurés

Exercices de transcription en XML bien formé

« Hypothèses de documents valides »

Yves MARCOUXEBSIUniversité de Montréal


Préalables : Cours 6 et 7.


Table des matières

Introduction

Lettre personnelle très simple

Message téléphonique

Chèque personnel


Introduction

Cet exercice consiste à transcrire en un document XML bien formé un document présenté sous forme traditionnelle. Pour chaque document donné, on imagine que l’on est en train de modéliser les documents de ce type et qu’on en est à rédiger en XML bien formé des « hypothèses de documents valides ». On porte attention au respect des principes de modélisation.


Lettre personnelle très simple

lettre-perso.png

- Réponse
Une des réponses possibles :
<lettre-personnelle>
  <titre>Mes dernières vacances</titre>
  <paragraphe>J’ai mangé de la dinde, <emphase>beaucoup</emphase> de dinde, 
    et j’ai bu du café, <emphase>beaucoup</emphase> de café !</paragraphe>
  <signature>Le Goinfre</signature>
</lettre-personnelle>

Message téléphonique

Message téléphonique rempli

Le contenu propre du message se résume à ce qui apparaît en vert.

Avant de regarder la transcription proposée, prenez quelques moments pour réfléchir à comment ce message pourrait être représenté en XML bien formé de façon à ce que ses principales parties constitutives soient bien identifiables, que toute l’information soit représentée, et qu’elle soit découpée assez finement pour qu’un simple positionnement géométrique ou style de présentation des éléments permette de reconstituer l’apparence « standard » ci-dessus.

- Réponse et discussion
Une des réponses possibles :
<message-téléphonique>
    <entête>
        <date>2024-02-01</date>
        <heure>13:48</heure>
        <pour>Jean Dion</pour>
    </entête>
    <message-de>
        <nom>Jeanne Dupont</nom>
        <no-téléphone>514-567-8901</no-téléphone>
    </message-de>
    <détails>
        <a-appelé/>
        <rappelera/>
    </détails>
    <message>
        <paragraphe>Demande de préparer le dossier Dupuis.</paragraphe>
        <paragraphe>Vous souhaite aussi <em>bonne fête</em>!</paragraphe>
    </message>
    <message-pris-par>Luc Roy</message-pris-par>
</message-téléphonique>
Discussion:

Nous avons adopté un structure générale qui découpe le message en cinq sections qui correspondent grosso modo à une division verticale de la forme papier : entête, message-de, détails, message et message-pris-par.

La section détails est constituée exclusivement d’éléments vides, chacun correspondant à une case à cocher. En effet, ces éléments d’information ne demandent aucune qualification additionnelle autre que leur présence ou absence, qui correspondent respectivement au fait que la case correspondante est cochée ou non.

Notez que la partie message doit être subdivisée en sous-éléments puisque, comme l’exemple le montre bien, son contenu ne consiste pas en un seul bloc de texte, mais bien en une suite de blocs séparés, que nous avons appelés paragraphes. L’exemple montre aussi un passage mis en évidence (par soulignement), que nous avons traduit dans la transcription par un élément em (pour « emphase »). Utiliser souligné ou quelque chose du genre comme nom d’élément aurait été contraire à la philosophie du balisage logique, puisque alors le balisage aurait traduit la mise en forme du contenu, et non le pourquoi de cette mise en forme. Le pourquoi de la mise en forme (pourquoi l’information est soulignée) est ici qu’il s’agit d’un passage sur lequel on désire attirer l’attention. Le nom d’élément em traduit donc la nature de l’élément de contenu, alors que souligné aurait traduit le formatage désiré.

Nous avons choisi d’utiliser des identificateurs génériques en français, sous l’hypothèse que les documents seraient principalement utilisés dans un environnement francophone, mais cela n’empêcherait pas d’utiliser des intitulés en anglais (ou dans n’importe quelle autre langue) au moment du stylage.


Chèque personnel

Chèque

Le contenu propre du chèque se résume à ce qui apparaît en écriture cursive et aux informations encerclées sur l’image.

- Réponse et discussion
Une des réponses possibles :
<chèque-BoM>
    <payeur>
      <nom>Paul Prudhomme</nom>
      <adresse>
        <adresse1>1234, Rue des Pins</adresse1>
        <adresse2>Montréal, Qc</adresse2>
        <code-postal>H3K 1A9</code-postal>
      </adresse>
    </payeur>
    <numéro>001</numéro>
    <date><année>2025</année><mois>02</mois><jour>28</jour></date>
    <payer-à>Jean Trudel</payer-à>
    <montant>
      <dollars>234</dollars>
      <cents>56</cents>
    </montant>
    <motif-du-paiement>Abonnement au journal</motif-du-paiement>
    <transit>27861001</transit>
    <numéro-de-compte>1234567</numéro-de-compte>
    <signature-présente/>
</chèque-BoM>
Discussion:

Plusieurs questions sont soulevées dans cet exercice. Notamment : comment représenter la signature manuscrite qui figure sur le chèque ? Mais d’autres questions plus subtiles se posent : les deux premiers chiffres de l’année, qui sont déjà imprimés sur le blanc de chèque doivent-ils être inscrits comme information spécifique au chèque ? Jusqu’à quel niveau de détail modéliser l’adresse du payeur ? Le numéro du chèque et le montant, qui figurent à deux endroits sur le chèque physique, doivent-ils être dupliqués dans le document numérique ?

Voyons, élément par élément, quelles réponses sont sous-jacentes à la solution présentée ci-dessus :

chèque-BoM
Nous avons choisi de lier le chèque à l’institution financière responsable de son traitement en intégrant un acronyme (BoM, pour “Bank of Montreal”, inscrit sur le blanc de chèque) dans le nom de l’EPHN. Même si l’indication est minimaliste, elle sera suffisante pour qu’un lecteur humain comprenne qu’il s’agit d’un chèque d’une institution particulière, qu’il pourra normalement identifier assez facilement.
montant et numéro
Pour les informations dupliquées sur le chèque physique, nous avons choisi d’éliminer la duplication. La raison d’être de la duplication du numéro sur le chèque physique est de permettre une lecture facile autant pour l’humain que pour l’ordinateur. Pour le montant, la répétition apporte une certaine validation par redondance lors de l’écriture et de la lecture humaine. Nous avons jugé ces duplications superflues pour un document numérique.
adresse
Nous avons opté pour l’approche courante qui consiste à prévoir deux lignes d’adresse (il pourrait y en avoir une troisième facultative dans le cas général). Par contre, le code postal a été séparé, car c’est une information qu’il est utile de pouvoir extraire facilement et traiter de façon distincte du reste de l’adresse.
date
Nous avons décidé d’inclure les deux premiers chiffres de la date comme contenu textuel du document numérique, même si l’humain n’a pas à les inscrire sur le chèque physique. Il nous a simplement paru nécessaire de conserver l’intégralité de la date, ne serait-ce que pour permettre une lecture humaine sans ambiguïté du document numérique même au-delà du XXIe siècle !
signature-présente
Nous avons choisi de représenter la signature par cet élément vide, qui devra être facultatif dans le modèle, et qui devrait correspondre, dans une interface de saisie éventuelle, à une boîte à cocher; une espèce d’étape finale que le payeur doit accomplir pour signifier son consentement, comme on en retrouve souvent sur les sites transactionnels. La simple présence de cet élément facultatif témoigne du fait que le payeur a effectivement franchi cette étape.
motif-du-paiement
Comme il n’y a qu’une seule ligne de prévue sur le chèque physique, il n’y a aucun raison de subdiviser cette information en paragraphes. En fonction de ce que l’on pourrait constater à l’analyse de plusieurs spécimens, il pourrait être pertinent de permettre une mise en emphase de certains passages.