EBSI - Plan du cours SCI6201 - Introduction à la gestion des données (Automne 2021) Passer au contenu

/ École de bibliothéconomie et des sciences de l'information

Je donne

Rechercher

Navigation secondaire

Plan du cours SCI6201 - Introduction à la gestion des données (Automne 2021)

3 crédits

Professeure titulaire : Lyne Da Sylva
Courriel : Lyne.Da.Sylva@UMontreal.CA
Téléphone : 514 343-7400
Bureau : C-2012, Pavillon Lionel-Groulx
Disponibilités : mardi 15h-17h ou sur rendez-vous (via Teams, par téléphone ou en personne)

Site Web du cours : https://studium.umontreal.ca/course/view.php?id=203004


Les cours se donnent le mardi 8h30-11h30.

Les cours se donnent sur la plateforme Zoom, via un lien précisé dans l'espace StudiUM du cours (pour les autres séances, à distance).


Description officielle

Typologie de données : ouvertes, liées, massives, de recherche; caractéristiques de chacune. Étapes et enjeux du traitement. Technologies pour leur gestion : formats, logiciels. Aspects éthiques et juridiques.

Objectifs d'apprentissage

Le cours vise les objectifs généraux ci-dessous. 

  1. Familiariser les étudiants avec les différents enjeux soulevés par la gestion des données de divers types.

    Au terme du semestre, l’étudiant(e) sera en mesure …

    1. de distinguer les différents types de données;
    2. d’adapter la gestion des données en fonction des enjeux associés à chaque type
    3. d'identifier les parties prenantes dans la gestion de données et leurs rôles respectifs;
    4. de situer les opérations de gestion des données dans les étapes de leur cycle de vie
    5. d'expliquer les aspects sociaux, professionnels, éthiques et juridiques de la gestion des données.
  2. Donner une formation technique et pratique sur l’utilisation de logiciels particuliers pour leur gestion.

    Au terme du semestre, l’étudiant(e) sera en mesure …

    1. d'utiliser des ressources technologiques appropriées (formats, logiciels, etc.) pour la gestion des données;
    2. d’effectuer certains traitements spécifiques sur des données.

Méthodes pédagogiques

Cours magistraux. Démonstration de logiciels. Discussions en classe. Travaux pratiques. Conférenciers et conférencières invités. Lectures obligatoires. Visionnement de vidéos.

À l'automne 2021, le cours sera donné en mode hybride :

  • une semaine sur trois (à compter du 7 septembre), les cours seront donnés sur le campus de l'Université de Montréal (voir le calendrier);
  • les deux autres semaines de chaque cycle de trois semaines, le cours sera donné à distance sur la plateforme Zoom (voir le calendrier).

Les séances à distance sont conçues pour être suivies en mode synchrone. Lorsque pertinent, ces séances de cours à distance (exposés magistraux et conférences invitées) pourront être enregistrées et diffusées sur le site StudiUM du cours.

Contenu du cours

Le cours est segmenté en trois modules, détaillés ci-dessous. Les modules s’enchevêtrent dans le calendrier du cours, pour assurer une progression logique des apprentissages.

Module 1 : Typologie des données

Une première partie de ce module couvrira la typologie des données :

  • données ouvertes (des administrations publiques, des sociétés commerciales, des organismes de recherche, etc.);
  • données liées du web sémantique;
  • données massives ou mégadonnées (Big Data) issues de diverses sources;
  • données de la recherche, produites par les chercheurs dans le cadre de projets de recherche institutionnels ou privés.

Les étudiant.e.s seront initié.e.s aux ressources disponibles pour gérer les données, selon leur type :

  • organismes impliqués;
  • environnements technologiques;
  • documentation pertinente;

Ceci couvrira, par exemple, les formats et environnements du web sémantique pour les données liées, les dépôts pour les données de la recherche ou les licences de partage et réutilisation pour les données ouvertes).

Module 2 : Traitements appliqués aux données

Les étudiant.e.s verront quels traitements doivent être développés plus particulièrement pour chaque type de données :

  • opérations documentaires classiques : description, organisation, préservation, curation, diffusion, repérage;
  • autres opérations, selon le cas : pratiques de citation de jeux de données, évaluation de la qualité des données ouvertes, transcodage d’un format à un autre pour les données liées, analyse et visualisation de grands ensembles de données.

Module 3 : Éléments de contexte de la gestion des données

Les milieux interpellés ainsi que les intervenant.e.s types seront détaillés pour chaque type de données :

  • pour les données de recherche : les milieux de la recherche, universitaire ou autre;
  • pour les données ouvertes : les milieux des archives, en particulier les archives gouvernementales;
  • pour les données liées : tous les milieux pour lesquels la diffusion et le partage d’information sont importants, notamment le secteur culturel;
  • pour les données massives : divers milieux de recherche, milieux financiers ou économiques, etc.

Également, pour chaque type de données (et selon le cas), les enjeux du traitement et de la gestion seront abordés :

  • enjeux pratiques (volume, méthodes de collecte, accessibilité, qualité);
  • enjeux technologiques (pérennité, préservation, sécurité, outils et méthodes de traitement);
  • enjeux éthiques et juridiques (confidentialité, propriété intellectuelle);
  • enjeux scientifiques (statut ontologique des données, impact sur la conduite de la recherche, impact du partage et de la réutilisation des données);
  • enjeux économiques (coûts, bénéfices).

 

Note : le cours est conçu comme faisant partie du programme de maîtrise en sciences de l’information, et par conséquent plusieurs parallèles seront faits avec les sciences de l’information. Cependant, le cours est ouvert aux étudiant.e.s d’autre programmes; des ajustements seront faits pour tenir compte de la provenance des inscrit.e.s.

 

Calendrier des activités

DateThématiques abordéesTravaux ou évaluation
2021-09-07

Introduction au cours.

Énoncé du travail final : étude de cas ou exploration d’un sujet lié à la gestion d’un type de données.

2021-09-14

Données ouvertes : enjeux, traitements particuliers, ressources associées.

 
2021-09-21

Données massives I : enjeux, traitements particuliers, ressources associées.

 
2021-09-28

Données liées I : enjeux, traitements particuliers, ressources associées.

 
2021-10-05

Traitements appliqués aux données I : chaîne de traitements; prétraitement.

Énoncé du TP1 (grands jeux de données) : nettoyage de données avec OpenRefine

2021-10-12

Données de recherche I : enjeux, traitements particuliers, ressources associées.

Quiz #1 (formatif, non évalué) : notions de base

2021-10-19

Semaine de lecture – pas de cours

 
2021-10-26

Données massives II : analyse et visualisation.

Conférence invitée : à confirmer

 
2021-11-02

Données de recherche II : plans de gestion de données; diffusion des jeux de données.

Remise du TP1

 

2021-11-09

Traitements appliqués aux données II : description.

Déposer sujet pour travail final

Énoncé du TP2 (données de recherche) : description de données de recherche selon un schéma de métadonnées général

2021-11-16

Cycle de vie et de gestion des données.

Impacts professionnels et disciplinaires.

Quiz #2 (formatif, non évalué) : traitements appliqués aux données

2021-11-23

Données liées II : technologies du web sémantique.

Remise du TP2

Énoncé du TP3 (données liées) : encodage de données en RDF

 

2021-11-30

Traitements appliqués aux données III : diffusion et recherche.

Conférence invitée : Ève Paquette-Bigras, bibliothécaire (gestion des données de recherche), Direction des bibliothèques - Direction du soutien à la réussite, à la recherche et à l'enseignement, UdeM

Remise du plan détaillé – travail final

 

2021-12-07

Enjeux sociaux, éthiques et juridiques.

Conférence invitée : Patrick Lozeau, Conseiller en innovation, responsable du volet données de Montréal en commun, Ville de Montréal

 
2021-12-14

Sujets connexes : internet des objets, eScience, science des données.

Conférence invitée : à confirmer

Remise du TP3

Quiz #3 (formatif, non évalué) : le contexte de la gestion des données

2021-12-21

Pas de cours

Consultation facultative pour travail final.

Remise du travail final (17h)

Calendrier des activités

	Calendrier en date du 1er septembre 2021

Les cours en présentiel sont surlignés en vert dans le calendrier.

La matière et sa répartition sont sujettes à changement, selon la vitesse de progression et la disponibilité de conférenciers ou conférencières.

Évaluation

Type

Description

Échéance

Pondération

Quiz

Évaluation de la matière vue en classe et de la compréhension des concepts présentés

Échelonnés sur la session

Non contributoires à la note finale

TP1

Nettoyage de données

2 nov

20%

TP2

Description de données de recherche

23 nov

20%

TP3

Données liées – encodage en RDF

14 déc

20%

Travail de réflexion

Étude de cas ou exploration d’un sujet lié à la gestion d’un type de données.

Confirmation du choix

9 nov.

Plan détaillé

30 nov

10%

Version finale

21 déc (17h)

30%

 

Lien entre les objectifs spécifiques et la validation des apprentissages

 TP1 - Nettoyage de donnéesTP2 - Description de données de rechercheTP3 - Données liées – encodage en RDFTravail de réflexion
de distinguer les différents types de données;XXX
d’adapter la gestion des données en fonction des enjeux associés à chaque typeXXXX
d'identifier les parties prenantes dans la gestion de données et leurs rôles respectifs;XX
de situer les opérations de gestion des données dans les étapes de leur cycle de vieXX
d'expliquer les aspects sociaux, professionnels, éthiques et juridiques de la gestion des données.X
d'utiliser des ressources technologiques appropriées (formats, logiciels, etc.) pour la gestion des données;XXX
d’effectuer certains traitements spécifiques sur des données.XXX

Politiques, règlements et directives

L’ensemble des politiques, règlements et directives énoncés dans le Guide étudiant de la maîtrise en sciences de l’information s’applique. Ce guide peut être consulté à l’adresse suivante :

https://wiki.umontreal.ca/pages/viewpage.action?pageId=124093925.

Certains éléments jugés cruciaux sont repris ici.

Délais et dates de remise des travaux

Les retards seront traités conformément à la politique de l'EBSI (voir la section pertinente dans le Guide étudiant à la maîtrise en sciences de l'information).

Règlement disciplinaire sur le plagiat ou sur la fraude concernant les étudiants

Il est attendu que tous les étudiant.e.s inscrit.e.s au cours respectent le code d'honneur de l'EBSI (https://ebsi.umontreal.ca/ressources-services/ressources-pedagogiques/code-honneur/). Le plagiat à l'Université de Montréal est sanctionné par le « Règlement disciplinaire sur la fraude et le plagiat concernant les étudiants ». Pour plus de renseignements, consultez le site https://integrite.umontreal.ca/accueil/.

Respect du droit d'auteur concernant le matériel de cours

"La prestation des cours est soumise au droit d'auteur. L’enregistrement sonore ou visuel d'un cours est strictement interdit à moins d’obtenir au préalable une autorisation écrite de l’enseignante ou de l'enseignant au moyen du Formulaire prévu à cet effet en précisant que la permission écrite d’enregistrer ne donne pas la permission de diffuser l’enregistrement.

Les étudiantes et étudiants en situation en handicap doivent présenter à l'enseignante ou l'enseignant, au début du cours, la lettre de mesures d'accommodement du SESH qui leur accorde le droit d'enregistrer les cours."  (https://wiki.umontreal.ca/display/EBSI/Guides+%3E+Code+d%27honneur+de+l%27EBSI

Qualité de la langue

La professeure tiendra compte de la qualité du français dans l'évaluation des travaux et peut enlever jusqu’à 10 % de la note (voir le Guide étudiant).

Mode de communication

Le mode de communication privilégié entre la professeure et les étudiant.e.s est le courriel. Veuillez vous assurer que vous êtes officiellement inscrit.e au cours et maintenez à jour l'adresse de courriel enregistrée dans votre profil informatique à l'Université de Montréal. Vous devez lire votre courriel très régulièrement (au moins une fois par jour), des informations importantes concernant le cours ou les TP pouvant être diffusées par ce moyen.

Très important : Pour toute correspondance concernant le cours, veuillez inscrire obligatoirement au début du champ sujet du message la chaîne suivante : [SCI6201] (incluant les crochets).