Plan du cours SCI6136 - Fouille de documents (Automne 2017)

3 crédits

Préalables : SCI6052, SCI6055

Professeur agrégé : Dominic Forest
Courriel : dominic.forest@umontreal.ca
Téléphone : 514-343-6119
Bureau : C-2046
Disponibilités : Sur rendez-vous

Site Web du cours : http://www.dominicforest.me/

Les cours se donnent le jeudi, 16h – 19h.

Description officielle

Concepts et techniques pour l’extraction et l’organisation automatiques d’informations. Méthodes descriptives et prédictives pour l’analyse de corpus documentaires. Visualisation de l’info. Applications en sciences de l’info. (Préalables SCI6052 – Information documentaire numérique et SCI6055 - Traitement et analyse documentaires)

Objectifs généraux

À titre d’objectif général, ce cours entend développer chez les étudiants les habiletés intellectuelles et techniques nécessaires à l’utilisation réfléchie de certains outils de fouille de documents dans le domaine des sciences de l’information. La réalisation de cet objectif implique que l’étudiant soit en mesure, au terme du cours, de témoigner de ses habilités à réaliser de manière concrète un certain nombre de tâches et d’opérations.

Objectifs spécifiques

Au terme de ce cours, les étudiants devront être en mesure :

d’identifier et de définir les principaux concepts de la fouille de documents;
de cerner les enjeux et les défis fondamentaux de ce domaine;
de distinguer les avantages et les inconvénients des principales approches de fouille;
d’analyser un corpus de documents textuels non structurés;
de maîtriser les principales opérations d’extraction et d’organisation automatiques d’informations;
d’évaluer des logiciels de fouille;
de comprendre les principales applications intégrant des processus d’extraction, d’organisation et de visualisation de l’information;
d'évaluer les avantages et les limites des applications de fouille;
de poser un regard critique sur l'utilisation des outils de fouille.

Méthodes pédagogiques

Le cours sera composé d’un volet plus théorique, sous forme d’exposés magistraux, de démonstrations de logiciels, de lectures et de discussions en groupe, portant sur les notions et techniques relatives à la matière étudiée. Lors de ces exposés, les étudiants sont invités à intervenir activement pour discuter de la matière au programme. Il sera aussi composé d’un volet plus pratique, sous forme d’ateliers en laboratoire, visant à expérimenter les diverses techniques et les logiciels présentés. Ces ateliers, sous la supervision du responsable du cours, ont pour objectif d’approfondir certaines notions et de permettre à l’étudiant une prise de contact directe avec les techniques et les logiciels vus en classe.

Pour ce cours, la présentation des exposés magistraux sera soutenue par des documents PowerPoint. Cependant, ces documents ne sauraient en aucun cas remplacer les exposés magistraux. La maîtrise des concepts et des techniques abordés dans le cours repose principalement sur la présence et la participation aux exposés et aux ateliers en laboratoire. Les documents ne constituent donc que le support de diffusion pédagogique du contenu du cours. Dans les jours suivant chaque cours, les étudiants pourront télécharger ces documents à partir du site Web du cours. On y retrouvera aussi plusieurs ressources (textes, logiciels à télécharger, etc.) en lien avec la matière présentée dans le cours. Ce site Web servira aussi de lieu d’interaction entre le professeur et les étudiants. Il est donc fortement recommandé de consulter régulièrement ce site. En plus des documents relatifs à chaque cours, des textes et des informations supplémentaires en rapport avec la matière présentée en classe seront mis à la disposition des étudiants.

Contenu du cours

Ce cours vise à introduire les étudiants au domaine de la fouille de documents. Il s’insère dans une problématique générale liée à l’analyse et à la gestion informatisées des documents textuels. Au niveau théorique, nous présenterons les concepts fondamentaux, les enjeux, ainsi que les techniques principales du domaine de la fouille. Au niveau pratique, nous exposerons les principes et les fonctionnalités de quelques outils informatiques de fouille, dans leur application aux sciences de l’information. Plusieurs approches seront exposées et discutées (statistique, linguistique, etc.). Toutefois, un volet important du cours sera consacré au traitement numérique des documents textuels.

Le contenu du cours est de nature multidisciplinaire. Les théories et les concepts présentés proviennent de plusieurs disciplines (linguistique, informatique, science de l’information, etc.). Le cours ne présuppose cependant aucune connaissance approfondie dans des domaines autres que celui des sciences de l’information.

Le cours est divisé en trois volets thématiques principaux répartis inégalement durant la session :

1. Introduction à la fouille de documents. La première partie du cours vise à introduire les étudiants au domaine de la fouille de documents. À cet égard, nous définirons et exposerons les concepts principaux et les enjeux fondamentaux de domaine. En outre, nous en distinguerons les différentes approches théoriques et en délimiterons les contextes d’application.

2. Les principales techniques et méthodes de fouille de documents. La deuxième partie du cours présente les principales techniques et méthodes de fouille de documents. Nous présenterons et comparerons différentes approches d’extraction et d’organisation automatiques d’informations. Plus spécifiquement, nous exposerons différentes méthodes visant à assister le prétraitement, la transformation, la classification, la catégorisation et la visualisation des documents textuels.

3. Les différentes applications de fouille de documents. Ce volet thématique sera traité dans la majorité des cours. Nous verrons comment les différents processus de fouille de documents peuvent être employés dans différentes applications. Nous présenterons et distinguerons aussi différentes catégories d’applications (description des documents, analyse thématique et identification automatique de thèmes, indexation automatique et repérage d’informations, extraction et découverte d’informations, analyse d’opinions, etc.).

Calendrier des activités

Date	Activité(s)	Évaluation
2017-09-07	Présentation du plan de cours et des modalités d’évaluation
2017-09-14	Intro. à la fouille de donnée et de textes, le modèle vectoriel pour le traitement des documents
2017-09-21	Les corpus de documents textuels
2017-09-28	La segmentation des documents textuels, l’extraction du lexique, les statistiques textuelles
2017-10-05	Filtrage du lexique et pondération des unités textuelles discriminantes, extraction de termes complexes
2017-10-12	Fouille de textes et analyse descriptive : le regroupement automatique des documents
2017-10-19	Fouille de textes et analyse descriptive : le regroupement automatique des documents	Remise de la partie 1
2017-10-26	Semaine de lecture
2017-11-02	Fouille de textes et analyse descriptive : le regroupement automatique des documents	Remise de la partie 2
2017-11-09	Fouille de textes et analyse prédictive : la catégorisation automatique des documents
2017-11-16	Fouille de textes et analyse prédictive : la catégorisation automatique des documents
2017-11-23	Fouille de textes et analyse prédictive : la catégorisation automatique des documents	Remise de l'évaluation
2017-11-30	Jean-François Chartier (études de cas) et Juan-Manuel Torres (résumé automatique)
2017-12-07	L’avenir des technologies de fouille de documents
2017-12-14	Laboratoire optionnel	Remise de la partie 3

Calendrier sujet à modifications

Évaluation

Pour réussir ce cours, il est essentiel d’assister aux exposés magistraux et de participer activement aux laboratoires (lors desquels vous pourrez débuter vos travaux pratiques). L’évaluation du niveau de compréhension des notions et de la maîtrise des habiletés techniques se fera au moyen de plusieurs évaluations.

Description détaillée de l’évaluation proposée

a) Expérimentation en fouille de textes, présentation sous forme d'article scientifique (en équipe de deux) [80%] :

1. Partie 1. Définition de la problématique et revue de la littérature [30 %]

2. Partie 2. Constitution d’un corpus [20 %]

3. Partie 3. Expérimentation [30 %]

b) Évaluation d’un logiciel (évaluation individuelle) [20 %]

Politiques, règlements et directives

L’ensemble des politiques, règlements et directives énoncés dans le Guide de l’étudiant s’appliquent. Une attention particulière est à porter aux éléments suivants :

- Règlement disciplinaire sur le plagiat ou la fraude concernant les étudiants. Tous les étudiants doivent prendre connaissance du document « Règlement disciplinaire sur le plagiat ou la fraude concernant les étudiants ».

- Délais et dates de remise des travaux. Tout retard non justifié dans la remise d’un travail sera sanctionné : 5 % de la note maximale du travail retranchés par jour calendaire de retard, jusqu'à concurrence de 35 %. Le jour de la date prévue de la remise du travail ne compte pas. Le samedi et le dimanche ainsi que les jours fériés sont comptés. Au-delà de ce délai : note F (échec).

- Enregistrement des cours. La prestation des cours est soumise au droit d'auteur. Une autorisation écrite de la part de l'enseignant est requise pour réaliser un enregistrement audio ou vidéo d'un cours, même pour un usage strictement personnel. Les étudiants en situation en handicap doivent présenter à l'enseignant, au début du cours, le formulaire de mesures d'accommodement du SESH qui leur accorde le droit d'enregistrer les cours.

- Qualité de la langue. Un maximum de 10% de la note globale d’un travail pourra être retranché pour la qualité de la langue.

Ressources

Ananiadou, S. et McNaught, J. (dir. publ.). 2006. Text mining for biology and biomédecine. Norwood (Mass.) : Artech House.

Aphinyanaphongs, Y., Fu, L. D., Li, Z., Peskin, E. R., Efstathiadis, E., Aliferis, C. F. and Statnikov, A. 2014. A comprehensive empirical comparison of modern supervised classification and feature selection methods for text categorization. Journal of the Association for Information Science and Technology. Vol 65, no 10, pp. 1964-1987.

Avancini, H., Rauber, A. et Sebastiani, F. 2002. Organizing digital libraries by automated text categorization. Technical report 2002-TR-05.

Berry, M. W. 2004. Survey of text mining. Clustering, classification, and retrieval. Berlin; New York : Springer-Verlag.

Berry, M. W. et Castellanos, M. 2008. Survey of text mining 2. Clustering, classification, and retrieval. Berlin; New York : Springer-Verlag.

Bilisoly, R. 2008. Practical text mining with Perl. Hoboken, New Jersey : Wiley.

Chaomei, C. 1999. Information visualisation and virtual environments. Berlin; New York : Springer-Verlag.

Fayyad, U., Grinstein, G. G. et Wierse, A. (dir. publ.). 2001. Information visualization in data mining and knowledge discovery. San Francisco: Morgan Kaufmann Publishers.

Feldman, R. et Sanger, J. 2007. The text mining handbook. Advanced approaches in analysing unstructured data. Cambridge : Cambridge University Press.

Feldman, S. 2004. « Why categorize? ». KMWorld. Content document and knowledge management. Vol. 13, no 9, pp. 8-10.

Han, J. et Kamber, M. 2001. Data mining. Concepts and techniques. San Franscisco : Morgan Kaufman.

Hearst, M. 1999. « Untangling text data mining ». Proceeding of ACL 99: the 37th annual meeting of the Association for Computational Linguistics. University of Maryland, 20-26 juin 1999.

Ibekwe-SanJuan, F. 2007. Fouille de textes : méthodes, outils et applications. Paris : Hermès.

Ihadjadene, M. (dir. publ.) 2004. Les systèmes de recherche d’informations. Paris : Hermès.

Inmon, W. H. et Nesavich, A. 2008. Tapping into unstructured data. Integrating unstructured data and textual anlytics into business intelligence. Boston (Mass.) : Prentice Hall.

Jackson, P. et Moulinier, I. 2002. Natural language processing for online applications: text retrieval, extraction, and categorization. Amsterdam : John Benjamins Publishing Company.

Kao, A. et Poteet, S. R. (dir. publ.). 2007. Natural language processing and text mining. Berlin; New York : Springer- Verlag.

Lallich-Boidin, G. et Maret, D. 2005. Recherche d’information et traitement de la langue. Lyon : Presses de l’ENSSIB.

Lebart, L. et Salem, A. 1994. Statistique textuelle. Paris : Dunod.

Lebart, L., Salem, A. et Berry, L. 1998. Exploring textual data. Dordrecht: Kluwer Academic Publishers. Liu, B. 2007. Web data mining. Berlin; New York : Springer-Verlag.

Maly, K., Zubair, M. et Anan, H. 2001. « An automated classification system and associated digital library services ». In Isa, P. T. (dir. publ.) 2001. New developments in digital libraries, proceedings of the 1st international workshop on New Developments in Digital Libraries (NDDL 2001). ICEIS Press, pp. 113-126.

Manning, C. D. et H. Schütze. 1999. Foundations of statistical natural language processing. Cambridge (Mass.) : MIT Press.

Meunier, J.-G., Forest, D. et Biskri, I. 2005. Classification and categorization in computer assisted reading and analysis of texts. In Lefebvre, C. et Cohen, H. (dir. publ.). 2005. Handbook of categorization in cognitive science. New York: Elsevier, pp. 955-978.

Mitkov, R. 2005. The Oxford handbook of computational linguistics. Oxford : Oxford University Press.

Popping, R. 2000. Computer-assisted text analysis. London : Sage.

Provalis Research. 2015. WordStat. Content analysis module for SimStat and QDA Miner.

Riloff, E. 1995. « Little words can make a big difference for text classification ». Proceedings of the 18th International Conference on Research and Development in Information Retrieval. New-York : ACM Press, pp. 130-136.

Salton, G. et McGill, M. 1983. Introduction to Modern Information Retrieval. New-York: McGraw-Hill.

Sebastiani, F. 2002. « Machine learning in automated text categorization ». ACM Computing Surveys, vol. 34, no 1, pp. 1-47.

Sebastiani, F. 2005. Text categorization. In Rivero, L. C., Doorn J. H. et Ferraggine, V. E. (dir. publ.). 2005. The encyclopedia of database technologies and applications. Hershey : Idea Group Publishing, pp. 683-687.

Sebastiani, F. 2005. Text categorization. In Zanasi, A. (dir. publ.). Text mining and its applications. Southampton, UK : WIT Press

Siegel, E. 2013. Predictive analytics: the power to predict who will click, buy, lie, or die. New Jersey : Wiley.

Sinclair, J. 1991. Corpus, concordance, collocation. Oxford: Oxford University Press.

Sokolova M. et Lapalme G. 2009. A systematic analysis of performance measures for classification tasks. Information processing & management, no. 45, pp. 427-437.

Spangler, S. et kreulen, J. 2008. Mining the talk. Unlocking the business value in unstructured information. Boston (Mass.) : IBM Press / Pearson.

Srivastana, A. N. et Sahami, M. (dir. publ.). 2009. Text mining. Classification, clustering, and applications. Boca Raton (Fl.) : CRC Press.

Weiss, S. M., Indurkhya, N., Zhang, T. et Damereau, F. J. 2005. Text mining. Predictive methods for analyzing unstructured information. Berlin; New York : Springer-Verlag.

Widdows, D. 2004. Geometry and meaning. Stanford : Center for the Study of Language and Information.

Witten, I. H. et Frank, E. 2005. Data mining. Practical machine learning tools and techniques (2e ed.). San Franscisco : Morgan Kaufman.

Witten, I. H., Don, K. J., Dewsnip, M. et Tablan, V. 2004. « Text mining in a digital library ». International Journal of Digital Libraries. Vol. 4, no 1, pp. 56-59.

Yang, Y. 1999. « An evaluation of statistical approaches to text categorization ». Information Retrieval. Vol. 1, no 1-2, pp. 69-90.

Yang, Y. et Liu, X. 1999. « A re-examination of text categorization methods ». Proceedings of SIGIR-99, the 22nd ACM International Conference on Research and Development in Information Retrieval. New York : ACM Press, pp. 42-49.