Copyright © 2022 Yves MARCOUX; dernière modification de cette page : 2022-01-04.
SCI6373 Programmation documentaire
Yves MARCOUX - EBSI - Université de Montréal
Le cours a comme préalable « SCI6005 ». Le cours SCI6005 est le cours d’Information numérique et informatique documentaire du programme de Maîtrise en sciences de l’information de l’EBSI. Plus précisément, les éléments prérequis pour le cours sont de deux ordres :
Le matériel du cours est conçu en tenant pour acquis ces compétences.
Si vous maîtrisez ces prérequis, vous pouvez vous considérer prête1 pour le cours (voyez cependant la section suivante sur le choix d’un système d’exploitation). Si vous sentez qu’un rafraîchissement de vos connaissances s’impose, les ressources respectives suivantes peuvent être consultées (mais il en existe beaucoup d’autres sur le Web) :
1: Voir la note concernant les épicènes dans le plan de cours.
Dans toute la mesure du possible, les concepts du cours sont abordés de façon indépendante d’un système d’exploitation spécifique. En particulier, toutes les activités pratiques du cours peuvent en principe être réalisées sur n’importe quel système d’exploitation. Cependant, pragmatiquement, quand vient le temps de donner des directives techniques précises, les variations d’un système à l’autre peuvent être importantes. Le choix qui a été fait pour ce cours est de ne pas dupliquer les directives dans le matériel du cours, mais plutôt de les formuler pour un seul système d’exploitation, en tenant pour acquis qu’une utilisatrice aguerrie d’un autre environnement pourra facilement les transposer.
Conformément aux choix technologiques prépondérants de l’Université de Montréal, le choix du système d’exploitation en fonction duquel les directives sont formulées est Windows de Microsoft, et plus spécifiquement, Windows 10. Cela étant dit, l’équivalent MacOS des manipulations demandées est également indiqué lorsque c’est possible.
Si vous ne vous considérez pas comme utilisatrice aguerrie de votre système d’exploitation, que ce soit Windows ou un autre, vous devriez considérer travailler sur les ordinateurs des Laboratoires d’informatique documentaire de l’EBSI, parce que tous les outils nécessaires au cours y sont déjà installés et configurés de façon appropriée. De plus, ces ordinateurs fonctionnent sous Windows et les directives dans le matériel du cours y sont donc directement applicables.
Il y a deux façons de travailler aux Laboratoires d’informatique documentaire : en présentiel (consultez les modalités d’accès) et virtuellement, via le Laboratoire d’informatique virtuel de l’EBSI, accessible en tout temps par le Web. L’accès virtuel est à privilégier en temps de pandémie.
Branchement au Laboratoire d’informatique virtuel de l’EBSI
Visualisez une capsule vidéo pour le branchement au Laboratoire d’informatique virtuel de l’EBSI. La documentation du laboratoire virtuel est ici.
Notez que le choix de travailler sur votre propre ordinateur ou aux Laboratoires de l’EBSI n’est pas une affaire de tout ou rien. Vous pouvez choisir de travailler majoritairement sur votre ordinateur, mais recourir aux Laboratoires de l’EBSI pour certaines manipulations qui demandent des outils particuliers que vous ne souhaitez pas installer sur votre ordinateur.
Plusieurs manipulations du cours nécessitent un navigateur Web. Une version récente de n’importe quel navigateur Web courant (Firefox, Chrome, Safari, Edge et même Internet Explorer) devrait faire l’affaire. Cependant, celui qui fonctionne le mieux en général pour le cours est Firefox. Si vous avez l’opportunité de l’installer sur votre ordinateur, il est recommandé de le faire.
Bien que la principale utilisation d’un navigateur Web soit la consultation de ressources sur le Web, ce type de logiciels offre aussi la possibilité de consulter des fichiers locaux, c’est-à-dire stockés sur l’ordinateur de l’utilisateur. C’est beaucoup ce genre d’utilisation que nous ferons dans le cadre du cours.
Note :
Les conventions typographiques suivantes s’appliquent en principe dans tout le matériel en lien avec le cours : protocoles, exercices et présentations. Lorsqu’il y a dérogation de ces conventions, le contexte clarifiera le sens de la typographie utilisée.
Les noms de fichier, chemins d’accès et URL, de même que les commandes à taper au clavier sont présentés tel qu’illustré par les exemples suivants :
exemple.xml
C:\dossier\fichier.txt
https://w3.org/
explorer
Dans les commandes à taper au clavier :
Les combinaisons de touches sont indiquées par un "+". Ainsi :
+R
explorer
signifierait de d’abord appuyer sur la clé R tout en maintenant la clé
enfoncée, ensuite tout relâcher, puis enfin taper explorer
. Il faudrait
bien sûr appuyer sur la clé Entrée (ou Retour) à la fin de l’opération. De façon
générale, nous n’explicitons pas la nécessité d’appuyer sur la clé Entrée à la fin
des commandes.
La sélection successive d’items ou d’onglets dans des menus ou fenêtres est indiquée comme suit :
Fichier → Nouveau… → Nouveau document → Document XML
Dans un logiciel donné, cela pourrait par exemple signifier d’ouvrir d’abord le menu Fichier, d’y sélectionner l’item Nouveau…, de développer l’item Nouveau document au sein de la fenêtre qui s’ouvre, et finalement de sélectionner l’item Document XML dans la section développée.
Le « Clic-droit » consiste à cliquer avec le bouton « inhabituel » de la souris, celui qui ouvre le menu contextuel de l’item sur lequel on clique. Normalement, le bouton habituel est le gauche et l’inhabituel est le droit (d’où le nom de « Clic-droit »). Cependant, si votre souris est configurée pour gaucher, ce sera l’inverse.
Dans les textes que l’on lit en navigateur Web (comme celui-ci), les passages écrits en petits caractères sont l’équivalent des notes de bas de page dans un texte paginé.
Les plupart des notions couvertes ici font partie des prérequis pour le cours. Même si vous maîtrisez déjà ces préalables, cette section vous servira de révision et vous permettra de vous familiariser avec la terminologie exacte utilisée dans le cours.
Un document numérique (ou technologique) est un fichier informatique contenant diverses informations pouvant être manipulées par ordinateur. Comme nous parlerons dans ce tour d’horizon presque exclusivement de documents numériques, nous nous contenterons habituellement d’utiliser les mots document et fichier sans qualificatif.
Comme tout fichier informatique, les documents numériques peuvent être enregistrés sur différents supports de stockage, comme des disques magnétiques, des disques optiques, des clés USB, etc. Ils peuvent également être transmis par des réseaux informatiques, comme internet, via des applications diverses comme le courriel ou les réseaux sociaux. Un clip vidéo capté sur un téléphone portable est un exemple de document numérique. Il est, dès sa captation, stocké sur le téléphone. S’il est éventuellement publié sur YouTube, il est transmis par réseau vers un serveur de YouTube et est donc dès lors stocké sur deux supports de stockage : le téléphone et le serveur de YouTube. À chaque fois qu’un utilisateur le visionne, il est de nouveau transmis par réseau, cette fois à partir du serveur de YouTube vers l’appareil de visionnement (où il en existera un copie temporaire).
Même si on n’en est pas toujours conscient, un fichier informatique possède toujours un nom de fichier, par lequel il est identifiable sur le support de stockage qui le contient. Ainsi, même une photo qui peut sembler anonyme sur un téléphone se révèle porter un nom de fichier lorsqu’on la transfère sur un ordinateur.
Sauf dans les cas les plus simples, le nom de fichier n’est qu’une partie d’une adresse plus complète permettant de localiser encore plus précisément le fichier. Si le fichier est stocké sur un support local (c’est-à-dire directement connecté à l’ordinateur utilisé), on appelle cette adresse complète un chemin d’accès. L’exemple suivant montre un chemin d’accès et met en évidence le nom de fichier :
La partie du chemin d’accès qui précède le nom de fichier indique sur quelle unité de stockage et dans quel dossier le fichier se trouve.
Si le fichier est stocké sur internet, l’adresse complète est appelée l’URL du fichier (pour Uniform Resource Locator). L’URL suivante désigne un fichier accessible par internet; il s’agit d’une page d’un site de Google :
Encore ici, la partie de l’URL qui précède le nom de fichier indique sur quel site (ou serveur) Web et dans quel dossier le fichier se trouve.
Les noms de fichier sont composés de lettres majuscules ou minuscules, de chiffres,
de tirets (-), de points (.) et de caractères de soulignement ( _
) et
peuvent, selon les systèmes utilisés, contenir d’autres caractères. Lorsqu’on doit
soi-même nommer un fichier, il est très fortement recommandé de s’en tenir à des
lettres sans signe diacritique (accent, cédille, etc.), à des chiffres et à des
points, de façon à faciliter l’accès aux fichiers à partir d’autres systèmes
informatiques. La même recommandation s’applique aux noms de dossier que l’on peut
être appelé à choisir.
Noms de fichier dans ce cours
Tous les exemples de ce cours suivent cette recommandation sur les noms de fichier et de dossier. Il vous sera aussi demandé de la suivre en tout temps, c’est-à-dire de toujours nommer vos fichiers et dossiers en utilisant exclusivement des lettres majuscules ou minuscules sans signe diacritique, des chiffres, des tirets, des points et des caractères de soulignement.
Un nom de fichier se termine habituellement par un point (.) suivi de quelques
lettres et/ou chiffres, par exemple .txt
, .mp3
ou
.pdf
. Cette partie du nom de fichier s’appelle l’extension du nom de fichier. Elle
indique, par convention, le type (ou format) du fichier, c’est-à-dire le type
d’information représentée dans le fichier (image, son, texte formaté, etc.) et la
façon dont elle est encodée. Par exemple, l’extension .mp3
indique que
le contenu du fichier représente un son codé selon les règles du format MP3.
Sous Windows
Sous Windows, les extensions de nom de fichier ne sont pas toujours visibles dans l’explorateur de fichiers (l’« Explorateur Windows »). Pour les faire apparaître :
explorer
).Assurez-vous que les extensions sont toujours visibles lorsque vous travaillez en lien avec ce cours.
Contenu d’un fichier
Au niveau du médium de stockage, le contenu d’un fichier est toujours représenté en binaire, par une série de 0 et de 1 (plus ou moins longue, selon le « poids » du fichier). Certaines opérations peuvent utiliser ce contenu binaire directement, sans interprétation; par exemple lorsqu’on crée une copie d’un fichier, c’est le contenu binaire du fichier qui est dupliqué, sans qu’il soit nécessaire d’interpréter ce contenu. En contraste, lorsqu’un utilisateur demande à consulter le fichier, par exemple en double-cliquant sur celui-ci dans l’explorateur de fichiers (l’Explorateur Windows ou, sur Mac, le Finder), alors la suite de 0 et de 1 qui forment le contenu du fichier doit être interprétée par une application (ou programme) informatique capable de rendre perceptible l’information qui est encodée, que ce soit un son, une image, du texte ou quoi que ce soit d’autre.
Ainsi, si on double-clique sur un fichier appelé chanson.mp3
au sein
de l’explorateur de fichiers, celui-ci lance automatiquement une application capable
de lire les fichiers MP3 (par exemple, sous Windows, le Lecteur Windows
Media) et lui soumet pour lecture le fichier chanson.mp3
.
L’application entame alors la lecture du fichier et rend son contenu perceptible par
les haut-parleurs de l’ordinateur.
Il est important de comprendre que le format d’un fichier est déterminé par son
contenu et non par son extension de nom de fichier. Un fichier contenant une
chanson en format MP3 ne deviendrait pas magiquement un clip vidéo si l’on changeait
son extension de .mp3
à .mp4
(une opération déconseillée,
mais techniquement possible). En dépit de sa nouvelle extension, le nouveau nom
correspondrait encore au même contenu qu’avant, lequel serait toujours conforme au
format MP3.
Revenons au fichier chanson.mp3
sur lequel on double-clique dans un
explorateur de fichiers. Comment l’explorateur sait-il quelle application lancer
pour lire le fichier?
La réponse est qu’à chaque type de fichiers (donc, à chaque extension de nom de
fichier, par exemple .mp3
) est associée une liste d’applications
installées sur l’ordinateur et capables de traiter les fichiers de ce type. On dit
que ces applications sont « associées » au type de fichier. Par exemple, sous
Windows, le type de fichiers MP3 est associé aux applications Lecteur Media
Windows et Groove Musique.
Parmi les applications associées à un type de fichiers, l’une est identifiée comme
l’application « par défaut » pour les fichiers de ce type. C’est elle qui est lancée
lorsqu’on double-clique sur un fichier du type en question. Dans notre exemple,
l’application par défaut pour les fichiers de type MP3 est le Lecteur Windows
Media et c’est donc lui qui est lancé lorsqu’on double-clique sur le fichier
chanson.mp3
.
Il est possible d’ouvrir un fichier avec une autre application que l’application par défaut; il suffit pour cela d’ouvrir le menu contextuel du fichier (Clic-droit sur le fichier) et de sélectionner Ouvrir avec. On voit alors toutes les applications associées au type de fichier et on n’a qu’à choisir celle avec laquelle on souhaite ouvrir le fichier. Aux laboratoires de l’EBSI (virtuel ou non), certaines applications additionnelles sont accessibles via l’item Envoyer vers… du menu contextuel.
On peut aussi ajouter une application à cette liste en choisissant Choisir une autre application. L’application choisie devient alors associée elle aussi au type de fichier. Il est possible, via une boîte à cocher, de définir l’application en question comme nouvelle application par défaut pour le type de fichier.
Tel que mentionné, un même type de fichiers peut être associé à plus d’une
application (dont une et une seule est l’application par défaut). À l’inverse, il
est aussi possible qu’une application soit associée à plus d’une extension. Par
exemple, le Lecteur Media Windows est normalement associé au moins aux
extensions .mp3
et .m4a
, et parfois à d’autres.
Les associations entre applications et types de fichiers, tout comme le choix de l’application par défaut pour chaque type de fichiers, sont définies au sein du système d’exploitation. Certaines associations existent dès l’installation du système d’exploitation. D’autres sont créées au moment où l’on installe ou configure certains logiciels. Enfin, pour répondre à des besoins particuliers, un utilisateur peut modifier les associations existantes ou en créer de nouvelles. L’important est qu’en tout temps, les applications associées à une extension donnée soient effectivement capables d’interpréter les fichiers dont le format correspond à l’extension.
Un fichier texte (ou au format texte) est un fichier dont le
contenu représente simplement une suite de caractères (lettres, chiffres,
etc.). Chaque caractère est représenté par un code binaire (suite de 0 et de 1)
selon un table de correspondance pré-établie. Le contenu du fichier est simplement
une succession de ces codes. Chaque code identifie un caractère donné (par exemple,
un a
minuscule), mais ne précise rien sur la façon de présenter
visuellement ce caractère à l’écran ou sur papier. C’est à l’application de
consultation que revient le choix d’une présentation visuelle des caractères,
notamment la police utilisée, sa taille, sa couleur. Aucune de ces informations ne
figure dans le fichier texte, qui ne contient qu’une succession de codes binaires
identifiant chacun un caractère.
La table de correspondance qui associe un code binaire à chaque caractère s’appelle un jeu de caractères. Il existe de nombreux jeux de caractères – dont quelques-uns sont présentés dans Les jeux de caractères (Marcoux 2021) – et il est important pour l’application de consultation de connaître le jeu de caractères auquel un fichier texte se conforme pour être en mesure de l’interpréter correctement.
Sauf avis contraire : fichiers texte UTF-8
Dans ce cours, par souci de simplicité et sauf avis contraire, nous ne parlerons que de fichiers texte conformes à un jeu de caractères spécifique : l’Unicode-UTF-8, souvent abrégé UTF-8. Cela allégera beaucoup notre discussion, sans grande perte de généralité, puisque ce jeu de caractères est maintenant un des plus courants dans le monde. Sauf avis contraire, donc, « fichier texte » sera ici synonyme de fichier texte conforme à l’UTF-8 ou fichier texte UTF-8 ou simplement fichier UTF-8. À l’occasion, nous mentionnerons comment les choses se passent avec d’autres jeux de caractères.
L’extension de noms de fichiers habituellement utilisée pour les fichiers texte est
.txt
.
L’UTF-8 est un des jeux de caractères les plus utilisés dans le monde. Une de ses grandes qualités est d’inclure les caractères d’à peu près toutes les langues du monde, y compris les langues asiatiques (chinois, japonais, coréen, thaï, etc.) l’arabe et l’hébreu.
Le lien suivant mène à un fichier texte illustrant certaines possibilités
multilingues de l’UTF-8. Comme les navigateurs Web reconnaissent le type de fichiers
.txt
et sont capables d’interpréter correctement le jeu de caractères
UTF-8, vous pouvez simplement cliquer sur le lien pour en visualiser le contenu
directement dans votre navigateur Web (sur le Web, la
détection du type de document ne se fait pas uniquement par l’extension du nom de
fichier, mais ce sujet dépasse la portée du présent texte) :
Lien vers un fichier texte démontrant les possibilités multilingues d’UTF-8.
(Normalement, ce lien fonctionne bien même en lecture sur tablette ou téléphone.)
Pour vous convaincre que ce qui est affiché est bien du texte et non une ou plusieurs images, sélectionnez avec votre souris (ou avec vos doigts, si vous êtes sur un dispositif mobile) différentes parties du texte et constatez que les unités sélectionnées sont bel et bien les caractères individuels.
Si vous aviez localement sur votre ordinateur une copie de ce fichier, portant
aussi un nom avec l’extension .txt
, vous n’auriez qu’à double-cliquer
dessus dans l’explorateur de fichiers pour que soit lancée l’application par défaut
pour les fichiers texte et que celle-ci affiche le contenu du fichier. Dans Windows,
cette application par défaut est le Bloc-notes (Notepad, en anglais), sauf si elle a
été changée par l’utilisateur.