Données sur le Web
Les professionnels de l'information, dans leur pratique aujourd'hui, doivent considérer non seulement les documents et l'information, mais aussi différents types de données. Cela aura un impact également sur le développement de la discipline des sciences de l'information, sur la recherche qui est menée et sur la formation offerte.
(Source : Da Sylva, 2017, p. 30[1])
Comme le fait bien ressortir Da Sylva, il est important d'un point de vue de la gestion de l'information de s'intéresser à la question des données sur le Web. On retrouve en effet différents types de données qui demandent aux professionnelles et professionnels de l'information de développer des compétences variées entre autres (Da Sylva, 2017, p. 30) :
Pour les données ouvertes : compétences en description des données, en évaluation de l'information, en formation des usagers
Pour les données liées : compétences en description, en recherche d'information
Pour les données de recherche : compétences en organisation et en préservation, aussi en archivistique pour planifier leur gestion.
Mais, avant toute chose, il faut s'assurer de bien comprendre ce que sont des données ouvertes, des données liées et des données de recherche.
Remarque :
La question des différents types de données sur le Web est vaste. L'objectif visé dans le cours est de vous introduire à ces dernières. Ainsi, une brève description de ces trois types de données est présentée dans les sections qui suivent, description qui sera complétée par une exploration concrète des trois types de données couverts dans le cadre du TP Données. Si la gestion des données vous intéresse, le cours SCI6201 Introduction à la gestion des données est pour vous!
Données ouvertes
Un premier type de données important à connaître comme professionnelle et professionnel de l'information sont les données ouvertes. L'adjectif "ouvertes" rejoint une idée d'ouverture similaire à celle des logiciels ouverts, soit celle de leur accessibilité publique que la définition ci-dessous fait bien ressortir :
C'est typiquement de l'information, surtout sous forme de statistiques, chiffriers ou autres formats tabulaires, qui provient d'un organisme public (mais parfois privé) et qui est rendue disponible publiquement sur le Web.
(Source : Da Sylva, 2017[1], p. 8)
Il s'agit ainsi de jeux de données produits par des particuliers, des organisations, des gouvernements par exemple et qui sont mis à disposition des internautes publiquement sur le Web. Il est ainsi possible de les consulter, voire de les réutiliser. Parmi les enjeux propres aux données ouvertes, nous retrouvons :
Format de données : Le choix du format pour les données partagées est crucial dans une perspective de partage et de réutilisation. Certains portails de données ouvertes comme Données Québec du Gouvernement du Québec (https://www.donneesquebec.ca/fr/) vont prescrire certains formats pour les jeux de données, les principaux étant CSV, XML, JSON et GeoJSON (https://www.donneesquebec.ca/fr/faq/#les-donnees-recherche-visualisation-format-utilisation-et-licence).
Qualité des données : Sur le portail Données Québec se trouvent précisés des critères pour évaluer la qualité des jeux de données, en sus du format, tel que la licence utilisée pour leur partage (https://www.donneesquebec.ca/fr/faq/#les-donnees-recherche-visualisation-format-utilisation-et-licence).
Licence pour le partage : Afin de favoriser le partage des données ouvertes, il est important d'utiliser une licence qui le permet. On utilise par exemple, sur le portail Données Ouvertes de la Ville de Montréal, la licence Creative Commons CC-BY 4.0 afin de favoriser le partage et l'utilisation des données ouvertes (https://donnees.montreal.ca/licence-d-utilisation).
Vous explorerez plus avant le portail de données ouvertes Données Québec dans le cadre du TP Données.
Données liées
Abordées lorsque le Web sémantique a été présenté, les données liées sont aussi d'intérêt pour les professionnels et professionnelles de l'information. Il s'agit de données auxquelles ont été associées des métadonnées[2] afin de rendre possible leur manipulation et croisement :
Ensemble de données munies de leurs métadonnées qui, reliées les unes aux autres, constituent une base de données à l'échelle du Web.
(Source : OQLF, Grand dictionnaire terminologique, 2013, http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=26520043)
Comme le démontre la définition ci-dessous donnée par le Gouvernement du Québec, les données liées sont associées à certains concepts clés :
Données structurées en RDF[3] et publiées par un éditeur sur le Web en recourant à leur URI[4] pour cibler un contenu donné. Le principe sous-jacent est de nommer les objets que l'on juge intéressants et de les rendre accessibles en indiquant leur URI sur le Web.
(Source : Gouvernement du Québec, 2020[5])
St-Germain[6] (2017, p. 36) résume ainsi les cinq niveaux de qualité des données liées proposés par Berners-Lee en 2010 :
Les données sont disponibles sur le Web, peu importe leur format, à l'aide d'une licence ouverte;
Les données sont disponibles dans un format de données structurées comme, par exemple Excel;
Les données sont disponibles dans un format non-propriétaire comme, par exemple en format texte délimité par des virgules;
Les données sont identifiées à l'aide d'URI afin que d'autres puissent les pointer;
Les données sont reliées à d'autres données pour fournir du contexte.
Des données qui répondent à ces cinq critères peuvent être considérées comme des données liées et ouvertes.
Plusieurs auteurs s'entendent quant à l'importance des données liées en contexte bibliothéconomique (voir, par exemple, Bermès et al. 2013[7], Da Sylva 2017[1] et St-Germain 2017[6]). St-Germain (2017, p. 37-38) souligne le gain de visibilité que l'adoption de données ouvertes et liées peut apporter aux données des catalogues de bibliothèques ainsi que leur enrichissement du fait de pouvoir les lier à d'autres ressources externes. Elle mentionne aussi l'augmentation de l'interopérabilité des données par l'adoption d'un format universel qui facilitera le partage et la réutilisation. Plusieurs bibliothèques nationales ont commencé à intégrer des données ouvertes et liées, dont la BnF que vous explorerez dans le cadre du TP Données.
Selon St-Germain (2017, p. 40) "la place des professionnels de l'information au sein de l'équipe de développement [de projet de données ouvertes et liées] est absolument nécessaire". Les compétences que les bibliothécaires et autres professionnels et professionnelles de l'information doivent mobiliser dans un projet de données ouvertes et liées touchent trois aspects (Zengenene, Casaros & Meghini, 2014, cités dans St-Germain, 2017, p. 40) :
Les systèmes d'information comme tels (téléchargement, installation, configuration) et les formats XML et RDF qui y sont utilisés ;
Les métadonnées produites lors du catalogage
La modélisation afin d'être en mesure de comprendre la structure des données et de pouvoir convertir de manière efficace les données vers RDF
Données de recherche
Finalement, on ne peut passer sous silence les données de recherche qui sont entre autres le produit du mouvement de la science ouverte. La gestion des données de recherche (GDR), de leur création jusqu'à leur partage et leur réutilisation présente plusieurs avantages( Scholars Portal, 2021[8], diapositive 6) :
"Consignation et partage des données de recherche pour faciliter leur découverte
Préservation et accès à long terme aux données
Dépôts certifiés conformes aux principes TRUST et FAIR
Augmentation du rayonnement de la recherche grâce à l'accès aux données et à leur réutilisation
Métadonnées correctement structurées et enrichies avec des balises de métadonnées pour une meilleure découverte des données de recherche"
De plus, certains organismes subventionnaires peuvent exiger des chercheurs et chercheuses qui obtiennent une subvention de mettre en place un plan de gestion des données de recherche. C'est ainsi dans une idée de partager les données issues de la recherche pour rendre la science plus accessible que le domaine de la GDR s'est développé. Les bibliothèques universitaires ont entre autres un rôle de premier plan en matière de GDR en étant activement impliquées avec la communauté de recherche universitaire pour les aider à développer des plans de gestion des données de recherche et à gérer leurs données de recherche. On a ainsi vu apparaître des postes de "bibliothécaire à la gestion des données de recherche" dans certaines universités. Au Canada, l'Association des bibliothèques de recherche du Canada a lancé le réseau Portage en 2015 afin de coordonner les efforts en matière de GDR. En avril 2021, le réseau Portage a été intégré à la Nouvelle organisation d'infrastructure de recherche numérique (NOIRN) (https://alliancecan.ca/fr/nouveautes/nouvelles/le-reseau-portage-se-joint-la-noirn-pour-continuer-de-faire-progresser-la-gestion-des-donnees-de).
On peut définir les données de recherche comme suit :
[E]nregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l'objet de la recherche.
(Source : OCDE, 2007[9], p. 18)
On retrouve aussi pour les données de recherche les enjeux liés aux formats et aux licences pour le partage. Les enjeux éthiques sont aussi bien présents par rapport aux données qui sont partagées.
Vous explorerez un dépôt de données de recherche dans le cadre du TP Données.
Remarque :
Les concepts de données ouvertes, données liées et données de recherche ne sont pas mutuellement exclusifs. Des données liées peuvent être ouvertes ainsi que des données de recherche peuvent être ouvertes.