Plan du cours SCI6136 - Fouille de documents (Automne 2014)
3 crédits
Préalables : SCI6052, SCI6055
Professeur agrégé : Dominic Forest
Courriel : dominic.forest@umontreal.ca
Téléphone : 514-343-6119
Bureau : C-2046
Disponibilités : mardi, 13h30 à 16h30
Site Web du cours : http://www.dominicforest.me/sci6136/
Les cours se donnent le mardi, 8h30 – 11h30.
Description officielle
Concepts et techniques pour l’extraction et l’organisation automatiques d’informations. Méthodes descriptives et prédictives pour l’analyse de corpus documentaires. Visualisation de l’info. Applications en sciences de l’info. (Préalables SCI6052 – Information documentaire numérique et SCI6055 - Traitement et analyse documentaires)
Objectifs généraux
À titre d’objectif général, ce cours entend développer chez les étudiants les habiletés intellectuelles et techniques nécessaires à l’utilisation réfléchie de certains outils de fouille de documents dans le domaine des sciences de l’information. La réalisation de cet objectif implique que l’étudiant soit en mesure, au terme du cours, de témoigner de ses habilités à réaliser de manière concrète un certain nombre de tâches et d’opérations.
Objectifs spécifiques
Plus précisément, l'étudiant sera amené à :
- d’identifier et de définir les principaux concepts de la fouille de documents;
- de cerner les enjeux et les défis fondamentaux de ce domaine;
- de distinguer les avantages et les inconvénients des principales approches de fouille;
- d’analyser un corpus de documents textuels non structurés;
- de maîtriser les principales opérations d’extraction et d’organisation automatiques d’informations;
- d’évaluer des logiciels de fouille;
- de comprendre les principales applications intégrant des processus d’extraction, d’organisation et de visualisation de l’information;
- d'évaluer les avantages et les limites des applications de fouille;
- de poser un regard critique sur l'utilisation des outils de fouille.
Méthodes pédagogiques
La majorité des cours seront divisés en deux parties :
- Un volet plus théorique, sous forme d’exposés magistraux, de démonstrations de logiciels, de lectures et de discussions en groupe, portant sur les notions et techniques relatives à la matière étudiée. Lors de ces exposés, les étudiants sont invités à intervenir activement pour discuter de la matière au programme.
- Un volet plus pratique, sous forme d’ateliers en laboratoire, visant à expérimenter les diverses techniques et les logiciels présentés. Ces ateliers, sous la supervision du responsable du cours, ont pour objectif d’approfondir certaines notions et de permettre à l’étudiant une prise de contact directe avec les techniques et les logiciels vus en classe.
Pour ce cours, la présentation des exposés magistraux sera soutenue par des documents PowerPoint. Cependant, ces documents ne sauraient en aucun cas remplacer les exposés magistraux. La maîtrise des concepts et des techniques abordés dans le cours repose principalement sur la présence et la participation aux exposés et aux ateliers en laboratoire. Les documents ne constituent donc que le support de diffusion pédagogique du contenu du cours. Dans les jours suivant chaque cours, les étudiants pourront télécharger ces documents à partir du site Web du cours. On y retrouvera aussi plusieurs ressources (textes, logiciels à télécharger, etc.) en lien avec la matière présentée dans le cours. Ce site Web servira aussi de lieu d’interaction entre le professeur et les étudiants. Il est donc fortement recommandé de consulter régulièrement ce site. En plus des documents relatifs à chaque cours, des textes et des informations supplémentaires en rapport avec la matière présentée en classe seront mis à la disposition des étudiants.
Contenu du cours
Ce cours vise à introduire les étudiants au domaine de la fouille de documents. Il s’insère dans une problématique générale liée à l’analyse et à la gestion informatisées des documents textuels. Au niveau théorique, nous présenterons les concepts fondamentaux, les enjeux, ainsi que les techniques principales du domaine de la fouille. Au niveau pratique, nous exposerons les principes et les fonctionnalités de quelques outils informatiques de fouille, dans leur application aux sciences de l’information. Plusieurs approches seront exposées et discutées (statistique, linguistique, etc.). Toutefois, un volet important du cours sera consacré au traitement numérique des documents textuels.
Le contenu du cours est de nature multidisciplinaire. Les théories et les concepts présentés proviennent de plusieurs disciplines (linguistique, informatique, science de l’information, etc.). Le cours ne présuppose cependant aucune connaissance approfondie dans des domaines autres que celui des sciences de l’information.
Le cours est divisé en trois volets thématiques principaux répartis inégalement durant la session :
1. Introduction à la fouille de documents. La première partie du cours vise à introduire les étudiants au domaine de la fouille de documents. À cet égard, nous définirons et exposerons les concepts principaux et les enjeux fondamentaux de domaine. En outre, nous en distinguerons les différentes approches théoriques et en délimiterons les contextes d’application.
2. Les principales techniques et méthodes de fouille de documents. La deuxième partie du cours présente les principales techniques et méthodes de fouille de documents. Nous présenterons et comparerons différentes approches d’extraction et d’organisation automatiques d’informations. Plus spécifiquement, nous exposerons différentes méthodes visant à assister le prétraitement, la transformation, la classification, la catégorisation et la visualisation des documents textuels.
3. Les différentes applications de fouille de documents. Ce volet thématique sera traité dans la majorité des cours. Nous verrons comment les différents processus de fouille de documents peuvent être employés dans différentes applications. Nous présenterons et distinguerons aussi différentes catégories d’applications (description des documents, analyse thématique et identification automatique de thèmes, indexation automatique et repérage d’informations, extraction et découverte d’informations, analyse d’opinions, etc.).
Calendrier des activités
Date | Activité(s) | Évaluation |
---|---|---|
2014-09-02 | Présentation du plan de cours et des modalités d’évaluation. | |
2014-09-09 | Introduction à la fouille de données et de textes, présentation du modèle vectoriel pour le traitement des documents | |
2014-09-16 | Les corpus de documents textuels | |
2014-09-23 | La segmentation des documents textuels | |
2014-09-30 | L’extraction du lexique, statistiques textuelles | |
2014-10-07 | Filtrage du lexique et pondération des unités textuelles discriminantes | |
2014-10-14 | Extraction de termes complexes et d’entités nommées | Remise du TP1 |
2014-10-21 | Semaine de lecture | |
2014-10-28 | Fouille de textes et analyse descriptive : la classification automatique des documents | |
2014-11-04 | Fouille de textes et analyse descriptive : la classification automatique des documents | |
2014-11-11 | Fouille de textes et analyse prédictive : la catégorisation automatique des documents | Remise du TP2 |
2014-11-18 | Fouille de textes et analyse prédictive : la catégorisation automatique des documents | |
2014-11-25 | Fouille de textes et analyse prédictive : la catégorisation automatique des documents | |
2014-12-02 | La visualisation de l'information et l'avenir des technologies de fouille de documents | Remise du TP3 |
2014-12-09 | Remise du travail d'évaluation |
Calendrier sujet à modifications
Évaluation
Pour réussir ce cours, il est essentiel d’assister aux exposés magistraux et de participer activement aux laboratoires (lors desquels vous pourrez débuter vos travaux pratiques). L’évaluation du niveau de compréhension des notions et de la maîtrise des habiletés techniques se fera au moyen de plusieurs évaluations.
Description détaillée de l’évaluation proposée
a) Trois travaux pratiques (en équipe de deux) [70%] :
1. Travail pratique 1. Extraction et filtrage du lexique, conversion numérique des documents textuels [10%]
2. Travail pratique 2. Classification automatique [30%]
3. Travail pratique 3. Catégorisation automatique [30%]
b) Évaluation d'un logiciel (évaluation individuelle) [30%]
Lien entre les objectifs spécifiques et la validation des apprentissages
Travail pratique 1. Extraction et filtrage du lexique, conversion numérique des documents textuels [10%] | Travail pratique 2. Classification automatique [25%] | Travail pratique 3. Catégorisation automatique [25%] | Présentation synthétique du projet de fouille (en équipe de deux) [20%] | Évaluation d'un logiciel (évaluation individuelle) [20%] | |
---|---|---|---|---|---|
d’identifier et de définir les principaux concepts de la fouille de documents; | |||||
de cerner les enjeux et les défis fondamentaux de ce domaine; | X | ||||
de distinguer les avantages et les inconvénients des principales approches de fouille; | X | X | X | X | |
d’analyser un corpus de documents textuels non structurés; | X | X | X | X | |
de maîtriser les principales opérations d’extraction et d’organisation automatiques d’informations; | X | X | X | ||
d’évaluer des logiciels de fouille; | X | X | X | X | |
de comprendre les principales applications intégrant des processus d’extraction, d’organisation et de visualisation de l’information; | X | X | X | ||
d'évaluer les avantages et les limites des applications de fouille; | X | X | X | X | |
de poser un regard critique sur l'utilisation des outils de fouille. | X | X | X | X | X |
Politiques, règlements et directives
L’ensemble des politiques, règlements et directives énoncés dans le guide étudiant s’appliquent. Une attention particulière est à porter aux éléments suivants :
- Règlement disciplinaire sur le plagiat ou la fraude concernant les étudiants (Guide étudiant, p. 29). Toute infraction au règlement sur le plagiat ou la fraude sera traitée suivant la procédure indiquée dans le règlement.
- Délais et dates de remise des travaux (Guide étudiant, p. 30). Tout retard non justifié dans la remise d’un travail sera sanctionné : 5% de la note est retranché par jour de calendrier de retard jusqu’à un maximum de 35%; à la 8ième journée de calendrier, la note F (échec) ou zéro est accordée.
- Qualité de la langue (Guide étudiant, p. 30). Un maximum de 10% de la note globale d’un travail pourra être retranché pour la qualité de la langue.
- Il est attendu que tous les étudiants inscrits au cours respectent le code d’honneur de l’EBSI (www.ebsi.umontreal.ca/sout/code-honneur.html).
Ressources
Voir plan de cours sur le site Web du cours.