Copyright © 2015-2023 Yves MARCOUX; dernière modification de cette page: 2023-01-01.

INU3011 Documents structurés

Encodage d’un texte

TP 2 – Travail individuel

Yves MARCOUXEBSIUniversité de Montréal


Préalables :


Table des matières

Objectifs

Marche à suivre

Possible en tout temps dans oXygen

Conseils et aide

Texte à encoder

À remettre


Objectifs

L’objectif principal de cet exercice est de vous placer dans la situation d’un auteur ou encodeur devant saisir un texte en XML en se conformant à un modèle prédéfini, de sorte que vous puissiez vous faire une idée exacte de la façon dont un auteur ou encodeur interagit avec un modèle XML et du genre de latitude qu’il peut avoir, même avec un modèle « imposé ». L’exercice consiste à encoder en XML un très court article (fictif) qui vous est donné, en vous conformant à une DTD simple mais réellement utilisée dans la vraie vie pour la création d’articles scientifiques et techniques.

Un objectif secondaire est de vous donner l’occasion de travailler avec un modèle XML (DTD) normalisé – dérivé de DocBook – pour des documents d’une certaine complexité et d’être en contact avec son « écosystème » (feuilles de style standard, documentation, etc.).

Le modèle en question est la Tag Library for Balisage Conference Paper Vocabulary Version 1.3.


Marche à suivre

En tant qu’auteur potentiel d’un article pour la conférence Balisage, vous avez reçu de la gestionnaire d’information pour cette conférence des instructions pour la création de documents XML valides selon le modèle utilisé pour les articles de cette conférence. Comme nous avons vu dans le texte Validité d’un document XML, ceci inclut minimalement :

Ces informations vous sont données ci-après. La gestionnaire de l’information vous a de plus fait parvenir les instructions suivantes, qui vous permettront notamment de pré-visualiser votre article tel que stylé par les feuilles de style « standard » du modèle.

Créez d’abord un dossier de travail local à l’emplacement de votre choix sur votre ordinateur, puis sauvegardez-y le fichier compressé BalisageTL.zip. Assurez-vous que le fichier n’est pas « bloqué » par Windows, puis décompressez-le dans le même dossier (et non dans un sous-dossier).

Ensuite, dans oXygen :

  1. Faire Fichier → Nouveau → Document XML → Personnaliser. À URL du schéma, coller l’adresse suivante :

    https://cours.ebsi.umontreal.ca/INU3011/H2023/proto/TP2/BalisageTL/balisage-1-3.dtd

    Le Type de schéma deviendra automatiquement DTD.

  2. Comme Élément racine, choisissez article.

  3. Décocher la boîte Ajouter le contenu optionnel et cocher Ajouter la première particule de choix.

  4. Cliquer sur Créer. Un nouveau document, contenant déjà le minimum d’éléments obligatoires selon la DTD, apparaît dans une nouvelle fenêtre d’édition.

  5. Il se peut que le document s’ouvre dans un mode d’édition appelé mode « Auteur ». Bien que vous soyez encouragée à explorer ce mode d’édition, ce n’est pas le but de ce travail et vous vous sentirez probablement en terrain plus connu si vous passez au mode « Texte », en faisant :

    Document → Mode édition → Texte.

    Notez qu’oXygen a mis la spécification d’attribut (obligatoire) suivante dans la première balise (article) du document :
    xmlns="http://docbook.org/ns/docbook"
    de même que plusieurs éléments obligatoires.

  6. Faites Document → Document XML → Associer une feuille de style XSLT/CSS puis sélectionnez l’onglet XSLT . Comme URL, collez l’adresse :

    https://cours.ebsi.umontreal.ca/INU3011/H2023/proto/TP2/BalisageTL/balisage-proceedings-html.xsl

    Il s’agit de la feuille de style « standard » prédéfinie pour le modèle de document. Cette feuille de style produit un extrant en HTML.

  7. Cliquer Accepter.

    Le lien suivant vers la feuille de style sera automatiquement inséré après la déclaration XML :

    <?xml-stylesheet type="text/xsl" href="https://cours.ebsi.umontreal.ca/INU3011/H2023/proto/TP2/BalisageTL/balisage-proceedings-html.xsl"?>

  8. Vers le début de votre document, ajoutez un commentaire XML où vous inscrirez vos nom et matricule UdeM.

  9. Effectuez une première sauvegarde de votre document : Fichier → Enregistrer sous.

    Comme emplacement de sauvegarde, spécifiez votre dossier de travail créé précédemment. Utilisez un nom de votre choix – sans espace, caractère accentué ni caractère spécial – comme nom de fichier (avec l’extension .xml).

Vous êtes maintenant prête à compléter le contenu de votre document. L’article à encoder est donné plus loin dans ce protocole, avec des conseils sur la façon de procéder.


Possible en tout temps dans oXygen

Pour un meilleur confort, vous pouvez agrandir la fenêtre d’édition en fermant différents panneaux verticaux. Vous pouvez aussi faire :

Fenêtre → Maximiser la zone d’édition

Vous pourrez trouver utile d’ouvrir la vue « Éléments » :

Fenêtre → Afficher la vue → Éléments   (cet item est situé à la toute fin de la liste, à cause du « É »)

Cette vue montre en tout temps la liste des éléments qu’il est permis d’insérer à la position actuelle du curseur. Pour insérer un élément, double-cliquez dessus dans la liste. En mode texte, assurez-vous d’abord que le curseur n’est pas à l’intérieur d’une balise.

Vous pourrez aussi trouver utile d’ouvrir la vue « Attributs » :

Fenêtre → Afficher la vue → Attributs

Cette vue montre en tout temps la liste des attributs qu’il est permis d’ajouter à l’élément à la position actuelle du curseur. Pour ajouter un attribut, double-cliquez dans la colonne Valeur, à côté de son nom dans la liste, puis inscrivez la valeur souhaitée.

En tout temps pendant que vous éditez votre document dans oXygen, vous pouvez aussi :


Conseils et aide

La documentation du modèle est disponible ici : Tag Library for Balisage Conference Paper Vocabulary. Vous n’aurez peut-être pas à vous en servir, mais elle fait partie de l’« écosystème » du modèle et il est bon de savoir qu’on peut toujours s’y référer en cas de doute sur le balisage à adopter.

Un exemple d’article complet encodé selon le modèle (pas celui que vous devez traiter) se trouve ici. N’hésitez pas à vous en inspirer ! Attention : ce que l’on voit directement en navigateur est le rendu (en HTML) du document obtenu avec la feuille de style « standard » prédéfinie pour le modèle de document. Il faut faire afficher la source pour voir le XML comme tel. Si vous êtes curieuse, vous pouvez jeter un coup d’œil sur le rendu en HTML lui-même (l’extrant de la transformation XSLT), accessible ici (il faut aussi faire afficher la source pour voir le code HTML lui-même).

L’article à encoder est donné à la section suivante. Une première chose à faire sera sûrement de copier/coller dans votre document (directement à partir du protocole) le titre de l’article comme contenu de l’élément obligatoire title qu’oXygen a inséré (mais laissé vide) au début du document.

Vous devrez ensuite copier-coller le résumé dans l’élément XML prévu par le modèle (abstract). Notez que l’ordre dans lequel les informations surviennent dans le document XML est dicté par le modèle et n’est parfois pas le même que dans l’article tel qu’il est présenté ci-dessous. Il faudra évidemment vous conformer à l’ordre du modèle XML.

Vous aurez ensuite à renseigner les éléments qui se rapportent à l’auteur de l’article.

Pour le corps de l’article comme tel, vous devrez insérer, après l’élément info, un élément section pour chaque section de l’article.

À l’intérieur de chaque section, vous devrez insérer principalement des paragraphes (para), mais vous aurez besoin à l’occasion d’une liste non numérotée (itemizedlist) ou numérotée (orderedlist).

Dans le corps de l’article, les mots qui apparaissent en italique doivent être balisés avec l’élément emphasis.

Le plus gros de la saisie se fera bien sûr par copier/coller à partir de l’article à encoder ci-dessous, directement de votre navigateur Web (copiez-collez à partir de la fenêtre normale de navigation; ne faites pas afficher la source). Les espaces insécables pourraient ne pas « survivre » au copier/coller. Vous pouvez les insérer sous la forme d’entités caractères &#160;.

Important : L’objectif de l’encodage n’est absolument pas d’arriver à reproduire l’apparence de l’article tel qu’il est présenté ci-après, mais bien de représenter l’information véhiculée par l’article en utilisant un balisage XML conforme au modèle imposé. Le visuel que vous obtiendrez sera déterminé par la feuille de style « standard » prévue pour le modèle; vous n’avez aucun contrôle direct sur ce visuel. Vous devriez obtenir quelque chose qui ressemble à ceci.


Texte à encoder

Le texte à encoder est l’article (fictif) suivant :

Vers un cadre unificateur pour l’enseignement des outils et méthodes d’espionnage

James Bond

Directeur des services secrets
GRE - Université de Saint-Glinglain

james@bond.spy

James Bond est un espion britannique de renommée internationale, aussi connu mondialement pour ses frasques de tout acabit. Il fait carrière dans le monde académique depuis 2035.


Résumé

Un cadre unificateur pour l’enseignement des méthodes et outils d’espionnage est défini et décrit. Les avantages pour les hauts dirigeants d’entreprise sont présentés avec force détails. Les questions budgétaires sont abordées et résolues. L’avenir politique de Saint-Glinglain et du Québec n’est pas discuté. La conclusion est assez étonnante, mais très convaincante. L’auteur argue que des retombées économiques importantes sont à prévoir pour l’ensemble des pays en développement.


Problématique et objectif

Trois types d’outils très importants pour la gestion de l’espionnage numérique dans la société—et donc, pour les professionnels de l’espionnage—sont les bases de données textuelles, les bases de données relationnelles et les documents structurés (XML, SGML, XHTML). L’éventail d’applications couvertes par ces trois types d’outils est extrêmement vaste, allant de la gestion de données factuelles à la gestion de documents en texte intégral ou multimédia, à des interfaces d’accès à l’espionnage entièrement dynamiques, collaboratives et personnalisables, en passant par la gestion de métadonnées et de données bibliographiques et catalographiques. Plus de dix ans d’expérience dans l’enseignement de ces outils amènent l’auteur à un triple constat. D’une part:

D’autre part, pourtant:

Il s’ensuit que chaque type d’outils est accompagné d’une démarche méthodologique « idiomatique », peu ou pas comparable aux démarches associées aux autres types d’outils. Ceci entraîne que la compétence fondamentale reliée à l’ensemble de ces types d’outils, à savoir la capacité de choisir l’outil le plus approprié aux besoins spécifiques à combler dans une situation donnée, est reléguée aux domaines—flous—de l’expérience ou de l’intuition et à peu près laissée-pour-compte dans les démarches pédagogiques. Comme l’apprenant ne possède pas encore intuition ou expérience, il développe ce que nous appelons un attitude d’« ambivalence » à l’égard des types d’outils.

Notre objectif est de développer un modèle unique et général d’outils documentaires dont chacun des types d’outils mentionnés ci-dessus est un cas particulier, accompagné d’une démarche méthodologique du même niveau de généralité par rapport aux méthodologies classiques accompagnant les trois types d’outils. Le but du présent article est de franchir quelques pas vers l’établissement d’un tel modèle et d’une telle méthodologie.

L’approche est élaborée avec en tête les trois types d’outils mentionnés ci-dessus (bases de données textuelles, bases de données relationnelles et documents structurés), mais elle pourrait être a priori généralisable à d’autres types d’outils.


Systèmes d’espionnage

La base de notre approche est de considérer les outils des types visés comme des composants d’éventuels systèmes d’espionnage. Conséquemment, nous voyons les méthodologies professionnelles gravitant autour des outils comme des méthodologies de développement de systèmes d’espionnage. Alors que chaque type d’outils vient traditionnellement avec sa propre méthodologie, nous cherchons en quelque sorte une méthodologie générale où chaque type d’outils trouve sa place relative et qui chapeaute l’ensemble des méthodologies individuelles. Évidemment, nous ne voulons pas procéder par simple « addition » des méthodologies existantes, mais en fournissant un cadre général dont chaque méthodologie existante est un cas particulier.

La toile de fond de notre discussion est donc le développement de systèmes d’espionnage, tâche structurée globalement comme suit:

  1. Identification de la clientèle-cible et du contexte.
  2. Identification des besoins à combler.
  3. Conception d’un système pour combler les besoins.
  4. Évaluation périodique du système.

Nous appellerons parfois analyse l’application de cette démarche dans un contexte donné, et analyste la professionnelle qui l’effectue.


Conclusion

Nous avons présenté une amorce de réflexion sur un cadre unificateur pour l’enseignement des outils et méthodes de gestion de l’espionnage numérique. Ce cadre est basé sur la nécessité pour les utilisateurs de pouvoir donner un sens aux interactions qu’ils entretiennent avec un système d’espionnage. Ce dernier doit être conçu de façon à permettre aux utilisateurs de formuler des énoncés qui ont un sens directement dans la logique institutionnelle de base (supposée connue comprise des utilisateurs), ou qui s’appuient sur des définitions/explications accessibles directement dans le système et formulées en des termes directement rattachables à la logique institutionnelle. Il est suggéré que ces énoncés puissent être formulés dans une langue naturelle (éventuellement enrichie de sons et d’images).

La réflexion n’en est manifestement qu’à ses débuts et nous comptons la pousser plus avant dans un futur rapproché.



À remettre

La seule chose que vous ayez à remettre est le fichier XML de l’article encodé. Vous effectuez la remise dans l’espace prévu à cet effet sur la page StudiUM du cours.

Assurez-vous que votre fichier est valide selon le modèle imposé en le validant dans oXygen avant de le déposer. Assurez-vous aussi qu’il porte un nom sans espace, caractère accentué, ni caractère spécial.