Copyright © 2023 Yves MARCOUX; dernière modification de cette page : 2023-01-03.

INU3011 Documents structurés

Introduction au cours

Index de ce texte

Yves MARCOUX - EBSI - Université de Montréal


Table des matières

Prérequis pour le cours

Choix de système d’exploitation

Laboratoires d’informatique documentaire de l’EBSI : présentiel et virtuel

Le logiciel oXygen

Choix de navigateur Web

Conventions typographiques

Notions de base

Documents numériques, fichiers

Noms de fichier

Extensions de nom de fichier, types de fichier, formats de fichier

Associations entre applications et types de fichiers

Fichiers texte, jeux de caractères


Prérequis pour le cours

Le cours a comme préalable « INU1001 ou l’équivalent ». Le cours INU1001 est le cours d’Introduction à l’information numérique du programme de Certificat en gestion de l’information numérique de l’EBSI. Plus précisément, les éléments prérequis pour le cours sont de deux ordres :

  1. D’un part, on suppose une facilité dans le maniement de base d’un système d’exploitation (Windows, MacOS, Linux). Les concepts de fichier, de dossier et d’application doivent être maîtrisés, comme le lancement d’applications et la manipulation de fenêtres. Il faut être à l’aise avec la gestion de fichiers et d’arborescences de dossiers, notamment avec l’utilisation d’un explorateur de fichiers (l’Explorateur de fichiers sous Windows et le Finder sous MacOS). Il faut savoir comment basculer d’une application à une autre et copier-coller de l’information d’une application à une autre. Il faut maîtriser la copie d’écran (screenshot) et les manipulations de base d’images. Enfin, il faut pouvoir travailler facilement avec des fichiers compressés.
  2. D’autre part, une compréhension de base du HTML et du CSS est nécessaire. Il faut être capable de créer un fichier HTML minimal dans un éditeur de fichiers texte (par exemple le Bloc-notes sous Windows ou TextEdit sous Mac) et le consulter localement avec un navigateur Web.

Le matériel du cours est conçu en tenant pour acquis ces compétences.

Si vous maîtrisez ces prérequis, vous pouvez vous considérer prête1 pour le cours (voyez cependant la section suivante sur le choix d’un système d’exploitation). Si vous sentez qu’un rafraîchissement de vos connaissances s’impose, les ressources respectives suivantes peuvent être consultées (mais il en existe beaucoup d’autres sur le Web) :

  1. La Trousse d’autoformation aux compétences informatiques de base et la Trousse d’autoformation sur les arborescences de dossiers, disponibles dans l’Espace d’autoformation de l’EBSI sur StudiUM. L’inscription à cet espace est libre, mais vous devez disposer d’un Code d’accès UdeM et d’un mot de passe (UNIP).
  2. Pour le HTML et le CSS : du matériel d’Introduction à HTML et à CSS développé originellement pour le cours SCI6052 Information documentaire numérique.

1: Voir la note concernant les épicènes dans le plan de cours.


Choix de système d’exploitation

Dans toute la mesure du possible, les concepts du cours sont abordés de façon indépendante d’un système d’exploitation spécifique. En particulier, toutes les activités pratiques du cours peuvent en principe être réalisées sur n’importe quel système d’exploitation. Cependant, pragmatiquement, quand vient le temps de donner des directives techniques précises, les variations d’un système à l’autre peuvent être importantes. Le choix qui a été fait pour ce cours est de ne pas dupliquer les directives dans le matériel du cours, mais plutôt de les formuler pour un seul système d’exploitation, en tenant pour acquis qu’une utilisatrice aguerrie d’un autre environnement pourra facilement les transposer.

Conformément aux choix technologiques prépondérants de l’Université de Montréal, le choix du système d’exploitation en fonction duquel les directives sont formulées est Windows de Microsoft, et plus spécifiquement, Windows 11. Cela étant dit, l’équivalent MacOS des manipulations demandées est également indiqué lorsque c’est possible.


Laboratoires d’informatique documentaire de l’EBSI : présentiel et virtuel

Si vous ne vous considérez pas comme utilisatrice aguerrie de votre système d’exploitation, que ce soit Windows ou un autre, vous devriez considérer travailler sur les ordinateurs des Laboratoires d’informatique documentaire de l’EBSI, parce que tous les outils nécessaires au cours y sont déjà installés et configurés de façon appropriée. De plus, ces ordinateurs fonctionnent sous Windows et les directives dans le matériel du cours y sont donc directement applicables.

Il y a deux façons de travailler aux Laboratoires d’informatique documentaire : en présentiel (consultez les modalités d’accès) et virtuellement, via le Laboratoire d’informatique virtuel de l’EBSI, accessible par le Web.

Branchement au Laboratoire d’informatique virtuel de l’EBSI

Il existe une capsule vidéo pour le branchement au Laboratoire d’informatique virtuel de l’EBSI. La documentation du laboratoire virtuel est ici.

Notez que le choix de travailler sur votre propre ordinateur ou aux Laboratoires de l’EBSI n’est pas une affaire de tout ou rien. Vous pouvez choisir de travailler majoritairement sur votre ordinateur, mais recourir aux Laboratoires de l’EBSI pour certaines manipulations qui demandent des outils particuliers que vous ne souhaitez pas installer sur votre ordinateur.


Le logiciel oXygen

Peu importe que vous comptiez travailler principalement sur votre ordinateur ou aux Laboratoires d’informatique de l’EBSI, il est fortement recommandé d’installer sur votre machine personnelle le logiciel oXygen, car la majorité des manipulations pratiques pour le cours s’effectuent dans ce logiciel (et/ou un navigateur Web). Si le logiciel est installé sur votre ordinateur, une grande partie des manipulations pourra être réalisée sans devoir utiliser les Laboratoires d’informatique de l’EBSI, physiques ou virtuel.

L’université possède un licence campus permettant l’installation sur les ordinateurs personnels des étudiants. Voir la procédure d’installation sur la page StudiUM du cours.

Une capsule vidéo d’introduction à oXygen est disponible et devrait être consultée dès les premiers jours du trimestre, que vous ayez ou non installé oXygen sur votre machine personnelle.


Plusieurs manipulations du cours nécessitent un navigateur Web. Une version récente de n’importe quel navigateur Web courant (Firefox, Chrome, Safari, Edge et même Internet Explorer) devrait faire l’affaire. Cependant, celui qui fonctionne le mieux en général pour le cours est Firefox. Si vous avez l’opportunité de l’installer sur votre ordinateur, il est recommandé de le faire.

Bien que la principale utilisation d’un navigateur Web soit la consultation de ressources sur le Web, ce type de logiciels offre aussi la possibilité de consulter des fichiers locaux, c’est-à-dire stockés sur l’ordinateur de l’utilisateur. C’est beaucoup ce genre d’utilisation que nous ferons dans le cadre du cours. Avec certains navigateurs et dans certains cas précis, des réglages particuliers sont requis pour la consultation de fichiers XML locaux. Des directives pour effectuer ces réglages seront données en temps et lieu pour chacun des navigateurs mentionnés ci-dessus.


Conventions typographiques

Note :

Les conventions typographiques suivantes s’appliquent en principe dans tout le matériel en lien avec le cours, incluant donc notamment le Premier tour d’horizon de XML, mais aussi les protocoles, exercices et présentations. Lorsqu’il y a dérogation de ces conventions, le contexte clarifiera le sens de la typographie utilisée.

Les noms de fichier, chemins d’accès et URL, de même que les commandes à taper au clavier sont présentés tel qu’illustré par les exemples suivants :

exemple.xml
C:\dossier\fichier.txt
https://w3.org/
explorer

Dans les commandes à taper au clavier :

Les combinaisons de touches sont indiquées par un "+". Ainsi :

Clé Windows+R explorer

signifierait de d’abord appuyer sur la clé R tout en maintenant la clé Clé Windows enfoncée, ensuite tout relâcher, puis enfin taper explorer. Il faudrait bien sûr appuyer sur la clé Entrée (ou Retour) à la fin de l’opération. De façon générale, nous n’explicitons pas la nécessité d’appuyer sur la clé Entrée à la fin des commandes.

La sélection successive d’items ou d’onglets dans des menus ou fenêtres est indiquée comme suit :

Fichier → Nouveau… → Nouveau document → Document XML

Dans oXygen, par exemple, cela signifierait d’ouvrir d’abord le menu Fichier, d’y sélectionner l’item Nouveau…, de développer l’item Nouveau document au sein de la fenêtre qui s’ouvre, et finalement de sélectionner l’item Document XML dans la section développée.

Le « Clic-droit » consiste à cliquer avec le bouton « inhabituel » de la souris, celui qui ouvre le menu contextuel de l’item sur lequel on clique. Normalement, le bouton habituel est le gauche et l’inhabituel est le droit (d’où le nom de « Clic-droit »). Cependant, si votre souris est configurée pour gaucher, ce sera l’inverse.

Dans les textes que l’on lit en navigateur Web (comme celui-ci), les passages écrits en petits caractères sont l’équivalent des notes de bas de page dans un texte paginé.


Notions de base

Les plupart des notions couvertes ici font partie des prérequis pour le cours. Même si vous maîtrisez déjà ces préalables, cette section vous servira de révision et vous permettra de vous familiariser avec la terminologie exacte utilisée dans le cours.

Documents numériques, fichiers

Un document numérique (ou technologique) est un fichier informatique contenant diverses informations pouvant être manipulées par ordinateur. Comme nous parlerons dans ce tour d’horizon presque exclusivement de documents numériques, nous nous contenterons habituellement d’utiliser les mots document et fichier sans qualificatif.

Comme tout fichier informatique, les documents numériques peuvent être enregistrés sur différents supports de stockage, comme des disques magnétiques, des disques optiques, des clés USB, etc. Ils peuvent également être transmis par des réseaux informatiques, comme internet, via des applications diverses comme le courriel ou les réseaux sociaux. Un clip vidéo capté sur un téléphone portable est un exemple de document numérique. Il est, dès sa captation, stocké sur le téléphone. S’il est éventuellement publié sur YouTube, il est transmis par réseau vers un serveur de YouTube et est donc dès lors stocké sur deux supports de stockage : le téléphone et le serveur de YouTube. À chaque fois qu’un utilisateur le visionne, il est de nouveau transmis par réseau, cette fois à partir du serveur de YouTube vers l’appareil de visionnement (où il en existera un copie temporaire).

Noms de fichier

Même si on n’en est pas toujours conscient, un fichier informatique possède toujours un nom de fichier, par lequel il est identifiable sur le support de stockage qui le contient. Ainsi, même une photo qui peut sembler anonyme sur un téléphone se révèle porter un nom de fichier lorsqu’on la transfère sur un ordinateur.

Sauf dans les cas les plus simples, le nom de fichier n’est qu’une partie d’une adresse plus complète permettant de localiser encore plus précisément le fichier. Si le fichier est stocké sur un support local (c’est-à-dire directement connecté à l’ordinateur utilisé), on appelle cette adresse complète un chemin d’accès. L’exemple suivant montre un chemin d’accès et met en évidence le nom de fichier :

chemin-acces.png

La partie du chemin d’accès qui précède le nom de fichier indique sur quelle unité de stockage et dans quel dossier le fichier se trouve.

Si le fichier est stocké sur internet, l’adresse complète est appelée l’URL du fichier (pour Uniform Resource Locator). L’URL suivante désigne un fichier accessible par internet; il s’agit d’une page d’un site de Google :

URL.png

Encore ici, la partie de l’URL qui précède le nom de fichier indique sur quel site (ou serveur) Web et dans quel dossier le fichier se trouve.

Les noms de fichier et de dossier sont composés de lettres, majuscules ou minuscules, de chiffres, de tirets (-), de points (.) et de caractères de soulignement ( _ ). Selon le système utilisé, certains autres caractères peuvent être utilisés.

Lorsqu’on doit soi-même nommer un fichier ou un dossier, il est recommandé de se limiter à des caractères « simples », qui fonctionnent avec tous les systèmes informatiques. La meilleure pratique est de n’utiliser que des lettres latines, sans signe diacritique (accent, cédille, etc.), des chiffres, et les trois signes de ponctuation déjà mentionnés : tiret (-), point (.) et soulignement ( _ ).

Tous les exemples du cours suivent cette « meilleure pratique » et on vous demande de vous y conformer également dans tous vos travaux.

Extensions de nom de fichier, types de fichier, formats de fichier

Un nom de fichier se termine habituellement par un point (.) suivi de quelques lettres et/ou chiffres, par exemple .txt, .mp3 ou .pdf. Cette partie du nom de fichier s’appelle l’extension du nom de fichier. Elle indique, par convention, le type (ou format) du fichier, c’est-à-dire le type d’information représentée dans le fichier (image, son, texte formaté, etc.) et la façon dont elle est encodée. Par exemple, l’extension .mp3 indique que le contenu du fichier représente un son codé selon les règles du format MP3.

Sous Windows

Sous Windows, les extensions de nom de fichier ne sont pas toujours visibles dans l’explorateur de fichiers (l’« Explorateur Windows »). Pour les faire apparaître :

Assurez-vous que les extensions sont toujours visibles lorsque vous travaillez en lien avec ce cours.

Contenu d’un fichier

Au niveau du médium de stockage, le contenu d’un fichier est toujours représenté en binaire, par une série de 0 et de 1 (plus ou moins longue, selon le « poids » du fichier). Certaines opérations peuvent utiliser ce contenu binaire directement, sans interprétation; par exemple lorsqu’on crée une copie d’un fichier, c’est le contenu binaire du fichier qui est dupliqué, sans qu’il soit nécessaire d’interpréter ce contenu. En contraste, lorsqu’un utilisateur demande à consulter le fichier, par exemple en double-cliquant sur celui-ci dans l’explorateur de fichiers (l’Explorateur Windows ou, sur Mac, le Finder), alors la suite de 0 et de 1 qui forment le contenu du fichier doit être interprétée par une application (ou programme) informatique capable de rendre perceptible l’information qui est encodée, que ce soit un son, une image, du texte ou quoi que ce soit d’autre.

Ainsi, si on double-clique sur un fichier appelé chanson.mp3 au sein de l’explorateur de fichiers, celui-ci lance automatiquement une application capable de lire les fichiers MP3 (par exemple, sous Windows, le Lecteur Windows Media) et lui soumet pour lecture le fichier chanson.mp3. L’application entame alors la lecture du fichier et rend son contenu perceptible par les haut-parleurs de l’ordinateur.

Il est important de comprendre que le format d’un fichier est déterminé par son contenu et non par son extension de nom de fichier. Un fichier contenant une chanson en format MP3 ne deviendrait pas magiquement un clip vidéo si l’on changeait son extension de .mp3 à .mp4 (une opération déconseillée, mais techniquement possible). En dépit de sa nouvelle extension, le nouveau nom correspondrait encore au même contenu qu’avant, lequel serait toujours conforme au format MP3.

Associations entre applications et types de fichiers

Revenons au fichier chanson.mp3 sur lequel on double-clique dans un explorateur de fichiers. Comment l’explorateur sait-il quelle application lancer pour lire le fichier?

La réponse est qu’à chaque type de fichiers (donc, à chaque extension de nom de fichier, par exemple .mp3) est associée une liste d’applications installées sur l’ordinateur et capables de traiter les fichiers de ce type. On dit que ces applications sont « associées » au type de fichier. Par exemple, sous Windows, le type de fichiers MP3 est associé aux applications Lecteur Media Windows et Groove Musique.

Parmi les applications associées à un type de fichiers, l’une est identifiée comme l’application « par défaut » pour les fichiers de ce type. C’est elle qui est lancée lorsqu’on double-clique sur un fichier du type en question. Dans notre exemple, l’application par défaut pour les fichiers de type MP3 est le Lecteur Windows Media et c’est donc lui qui est lancé lorsqu’on double-clique sur le fichier chanson.mp3.

Il est possible d’ouvrir un fichier avec une autre application que l’application par défaut; il suffit pour cela d’ouvrir le menu contextuel du fichier (Clic-droit sur le fichier) et de sélectionner Ouvrir avec. On voit alors toutes les applications associées au type de fichier et on n’a qu’à choisir celle avec laquelle on souhaite ouvrir le fichier. Aux laboratoires de l’EBSI (virtuel ou non), certaines applications additionnelles sont accessibles via l’item Envoyer vers… du menu contextuel.

On peut aussi ajouter une application à cette liste en choisissant Choisir une autre application. L’application choisie devient alors associée elle aussi au type de fichier. Il est possible, via une boîte à cocher, de définir l’application en question comme nouvelle application par défaut pour le type de fichier.

Tel que mentionné, un même type de fichiers peut être associé à plus d’une application (dont une et une seule est l’application par défaut). À l’inverse, il est aussi possible qu’une application soit associée à plus d’une extension. Par exemple, le Lecteur Media Windows est normalement associé au moins aux extensions .mp3 et .m4a, et parfois à d’autres.

Les associations entre applications et types de fichiers, tout comme le choix de l’application par défaut pour chaque type de fichiers, sont définies au sein du système d’exploitation. Certaines associations existent dès l’installation du système d’exploitation. D’autres sont créées au moment où l’on installe ou configure certains logiciels. Enfin, pour répondre à des besoins particuliers, un utilisateur peut modifier les associations existantes ou en créer de nouvelles. L’important est qu’en tout temps, les applications associées à une extension donnée soient effectivement capables d’interpréter les fichiers dont le format correspond à cette extension.

Fichiers texte, jeux de caractères

Un fichier texte (ou au format texte) est un fichier dont le contenu représente simplement une suite de caractères (lettres, chiffres, etc.). Chaque caractère est représenté par un code binaire (suite de 0 et de 1) selon un table de correspondance pré-établie. Le contenu du fichier est simplement une succession de ces codes. Chaque code identifie un caractère donné (par exemple, un a minuscule), mais ne précise rien sur la façon de présenter visuellement ce caractère à l’écran ou sur papier. C’est à l’application de consultation que revient le choix d’une présentation visuelle des caractères, notamment la police utilisée, sa taille, sa couleur. Aucune de ces informations ne figure dans le fichier texte, qui ne contient qu’une succession de codes binaires identifiant chacun un caractère.

La table de correspondance qui associe un code binaire à chaque caractère s’appelle un jeu de caractères. Il existe de nombreux jeux de caractères – dont quelques-uns sont présentés dans Les jeux de caractères (Marcoux 2021) – et il est important pour l’application de consultation de connaître le jeu de caractères auquel un fichier texte se conforme pour être en mesure de l’interpréter correctement.

Sauf avis contraire : fichiers texte UTF-8

Dans ce cours, par souci de simplicité et sauf avis contraire, nous ne parlerons que de fichiers texte conformes à un jeu de caractères spécifique : l’Unicode-UTF-8, souvent abrégé UTF-8. Cela allégera beaucoup notre discussion, sans grande perte de généralité, puisque ce jeu de caractères est maintenant un des plus courants dans le monde. Sauf avis contraire, donc, « fichier texte » sera ici synonyme de fichier texte conforme à l’UTF-8 ou fichier texte UTF-8 ou simplement fichier UTF-8. À l’occasion, nous mentionnerons comment les choses se passent avec d’autres jeux de caractères.

L’extension de noms de fichiers habituellement utilisée pour les fichiers texte est .txt.

L’UTF-8 est un des jeux de caractères les plus utilisés dans le monde. Une de ses grandes qualités est d’inclure les caractères d’à peu près toutes les langues du monde, y compris les langues asiatiques (chinois, japonais, coréen, thaï, etc.) l’arabe et l’hébreu.

Le lien suivant mène à un fichier texte illustrant certaines possibilités multilingues de l’UTF-8. Comme les navigateurs Web reconnaissent le type de fichiers .txt et sont capables d’interpréter correctement le jeu de caractères UTF-8, vous pouvez simplement cliquer sur le lien pour en visualiser le contenu directement dans votre navigateur Web (sur le Web, la détection du type de document ne se fait pas uniquement par l’extension du nom de fichier, mais ce sujet dépasse la portée du présent texte) :

Lien vers un fichier texte démontrant les possibilités multilingues d’UTF-8.

(Normalement, ce lien fonctionne bien même en lecture sur tablette ou téléphone.)

Pour vous convaincre que ce qui est affiché est bien du texte et non une ou plusieurs images, sélectionnez avec votre souris (ou avec vos doigts, si vous êtes sur un dispositif mobile) différentes parties du texte et constatez que les unités sélectionnées sont bel et bien les caractères individuels.

Si vous aviez localement sur votre ordinateur une copie de ce fichier, portant aussi un nom avec l’extension .txt, vous n’auriez qu’à double-cliquer dessus dans l’explorateur de fichiers pour que soit lancée l’application par défaut pour les fichiers texte et que celle-ci affiche le contenu du fichier. Dans Windows, cette application par défaut est le Bloc-notes (Notepad, en anglais), sauf si elle a été changée par l’utilisateur.