Plan du cours SCI6134 - Outils ling. et gestion documentaire (Hiver 2018)
3 crédits
Préalables : SCI6051, SCI6052, SCI6055
Professeure agrégée : Lyne Da Sylva
Courriel : Lyne.Da.Sylva@UMontreal.CA
Téléphone : 514 343-6444
Bureau : C-2030, Pavillon Lionel-Groulx
Disponibilités : mercredi 14h-17h et sur rendez-vous
Site Web du cours : https://studium.umontreal.ca/course/view.php?id=120847
Les cours se donnent le mercredi de 8h30 à 11h30.
Description officielle
Application d'outils linguistiques à la chaîne documentaire pour la gestion (semi-)automatique de textes. Principes et fonctionnement des outils. Constitution de corpus. Applications à divers types d'analyses documentaires.
Objectifs d'apprentissage
Le cours vise les objectifs généraux suivants :
- faire connaître les contextes d’applications des traitements linguistiques automatiques à l’intérieur de la chaîne documentaire et les types de logiciels utiles au traitement;
Plus précisément :
- d’utiliser divers logiciels pour effectuer des traitements linguistiques ou statistiques sur des documents textuels;
- de situer les technologies linguistiques disponibles et leur lieu d’application dans la chaîne documentaire.
- familiariser les étudiants avec la constitution et la structuration de corpus numériques en vue d’exploitations automatiques ou assistées par ordinateur;
Plus précisément :
- de constituer un corpus de documents textuels conformes à une thématique ou à un objectif précis;
- amener les étudiants à prendre conscience de l’état d’avancement variable des technologies linguistiques disponibles.
Plus précisément :
- d’analyser diverses statistiques des documents traités et évaluer leur pertinence pour l’analyse documentaire;
- de comparer la performance d’outils similaires;
Méthodes pédagogiques
Méthodes
• cours magistral et conférenciers invités
• petits travaux de groupes
• travaux pratiques
• démonstrations de logiciels
• lectures obligatoires
Contenu du cours
Ce cours vise à initier les étudiants aux technologies linguistiques qui peuvent être utiles à l'analyse documentaire automatique ou assistée par ordinateur.
Le cours se présente en deux temps: il débute par une introduction aux concepts de base en linguistique et en linguistique informatique ainsi qu’une présentation des outils de base qui peuvent mis être à contribution. Ensuite, l'application de ces éléments sera illustrée dans divers contextes de gestion documentaire : en priorité l'indexation automatique, le résumé automatique et la classification automatique, mais aussi l'acquisition de documents, la diffusion d'information, la veille informationnelle, etc.
Les étudiants effectueront diverses expérimentations pour comprendre l'utilité, les caractéristiques, la portée et les limites de ces outils logiciels.
Les étudiants seront ainsi amenés à évaluer la contribution potentielle des diverses technologies aux tâches d'indexation, de condensation et de classification documentaires.
Calendrier des activités
Date | Activité(s) | Évaluation |
---|---|---|
2018-01-10 | Présentation du cours. Les applications du traitement automatique de la langue (TAL) dans la chaîne documentaire. Introduction au TAL et à la linguistique. | |
2018-01-17 | Défis du traitement intellectuel des documents par des moyens automatiques I. Identifier les mots et les variantes de mots. | Énoncé TP1 |
2018-01-24 | Défis du traitement intellectuel des documents par des moyens automatiques II. Identifier le sens des mots et les multitermes. | Remise TP1 Énoncé TP2 |
2018-01-31 | Défis du traitement intellectuel des documents par des moyens automatiques III. Identifier les phrases et les unités thématiques. | Remise TP2 Énoncé TP3 |
2018-02-07 | La création, la représentation et le stockage des documents. Les corpus et la linguistique de corpus. | Remise TP3 Énoncé TP4 |
2018-02-14 | L’analyse documentaire I : introduction. La linguistique textuelle. | |
2018-02-21 | L’analyse documentaire II : l'indexation. Les propriétés statistiques du lexique. | |
2018-02-28 | L’analyse documentaire III : la production d’un résumé. La distribution des phrases dans un texte; les modèles de compréhension. | Remise TP4 Énoncé TP5 |
2018-03-07 | Semaine de lecture (pas de cours)
| |
2018-03-14 | L'acquisition des documents. La reconnaissance optique des caractères; la traduction automatique. | |
2018-03-21 | Le repérage des documents. L'expansion de requêtes; la recherche d'information translinguistique. | Remise TP5 |
2018-03-28 | La classification des documents. La classification, la catégorisation et le clustering. La sélection et la diffusion des documents. La classification automatique. | |
2018-04-04 | Les ressources documentaires : la constitution de thésaurus et d'ontologie. L'extraction de terminologie; l'alignement d'ontologies. Conférencière invitée : Magali Lachapelle, SRC | |
2018-04-11 | Atelier pour le travail final | Atelier pour le travail final |
2018-04-18 | Présentations orales. | Présentation orale |
2018-04-25 | Remise des travaux. | Remise du travail final |
Calendrier provisoire au 19 décembre 2017. La matière et sa répartition entre les cours sont sujettes à changement en fonction de la vitesse de progression et de la disponibilité des conférenciers.
Évaluation
Travaux pratiques
Ils se font seuls ou en équipe de deux personnes. Les séances de travail supervisées ne sont pas nécessairement suffisantes pour compléter les travaux; il sera parfois nécessaire de revenir au laboratoire sur une base individuelle (en réservant un poste de travail à l'avance). Il faut également prévoir du temps pour préparer le rapport.
Les rapports doivent être remis à la professeure au plus tard au début du cours.
Pour les travaux réalisés en équipe, la professeure se réserve le droit d’évaluer séparément chaque membre d’une équipe.
Cinq travaux pratiques (60%)
- extraction de mots et fréquences d’un ensemble de textes 10%
- extraction de termes d’un ensemble de textes 10%
- exercice de segmentation manuelle et automatique de textes 10%
- constitution d’un corpus de textes 15%
- indexation d’un corpus de textes 15%
Travail de recherche
Un travail individuel (40%) : une recherche portant sur un scénario de gestion documentaire à l'aide d'outils automatiques (avec analyse critique).
- Présentation orale 10%
- Rapport écrit 30%
Lien entre les objectifs spécifiques et la validation des apprentissages
TP1 : extraction de mots et fréquences d’un ensemble de textes | TP2 : extraction de termes d’un ensemble de textes | TP3 : segmentation manuelle et automatique de textes | TP4 : constitution d’un corpus de textes | TP5 : indexation d’un corpus de textes | Travail de recherche | |
---|---|---|---|---|---|---|
d’utiliser divers logiciels pour effectuer des traitements linguistiques ou statistiques sur des documents textuels; | X | X | X | X | X | |
de situer les technologies linguistiques disponibles et leur lieu d’application dans la chaîne documentaire. | X | |||||
de constituer un corpus de documents textuels conformes à une thématique ou à un objectif précis; | X | |||||
d’analyser diverses statistiques des documents traités et évaluer leur pertinence pour l’analyse documentaire; | X | X | X | |||
de comparer la performance d’outils similaires; | X | X | X | X |
Politiques, règlements et directives
L’ensemble des politiques, règlements et directives énoncés dans le guide étudiant s’appliquent. Une attention particulière est à porter aux éléments suivants.
Délais et dates de remise des travaux
Les retards seront traités conformément à la politique de l'EBSI (voir le Guide de l'étudiant).
Règlement disciplinaire sur le plagiat ou sur la fraude concernant les étudiants
Il est attendu que tous les étudiants inscrits au cours respectent le code d'honneur de l'EBSI (http://www.ebsi.umontreal.ca/sout/code-honneur.html). Le plagiat à l'Université de Montréal est sanctionné par le Règlement disciplinaire sur la fraude et le plagiat concernant les étudiants. Pour plus de renseignements, consultez le site www.integrite.umontreal.ca.
Qualité de la langue
La professeure tiendra compte de la qualité du français dans l'évaluation des travaux et peut enlever jusqu’à 10 % de la note (voir Guide de l'étudiant).
Afin de minimiser les problèmes dus à la qualité de la langue, on conseille l’utilisation d’un logiciel comme le logiciel de correction grammaticale et orthographique Antidote, qui est installé sur tous les postes des laboratoires informatiques facultaires.
Mode de communication
Le mode de communication privilégié entre la professeure et les étudiant(e)s est le courriel. Veuillez vous assurer que vous êtes officiellement inscrit(e) au cours et maintenez à jour l'adresse de courriel enregistrée dans votre profil informatique à l'Université de Montréal. Vous devez lire votre courriel très régulièrement (au moins une fois par jour), des informations importantes concernant le cours ou les TP pouvant être diffusées par ce moyen.
Très important : pour toute correspondance concernant le cours, veuillez inscrire obligatoirement au début du champ sujet du message la chaîne suivante : [SCI6134] (incluant les crochets).
Évaluation
L’évaluation des travaux se fait selon le barême suivant (Guide étudiant) :
Lettre | Signification | Points | Critères d'évaluation |
---|---|---|---|
A+ A A- |
Excellent |
4,3 4,0 3,7 |
La note A+ est réservée aux travaux exceptionnels qui dépassent les exigences demandées. La note A est accordée aux travaux excellents ou très bons qui répondent exactement aux exigences demandées. |
B+ B B- |
Très bon |
3,3 3,0 2,7 |
La note B est accordée aux travaux qui répondent exactement aux exigences demandées, avec certaines corrections mineures. |
C+ C C- |
Bon |
2,3 2,0 1,7 |
La note C est accordée aux travaux qui répondent, dans l’ensemble, assez bien aux exigences demandées, avec quelques erreurs sans gravité majeure. |
D+ D |
Passable |
1,3 1,0 |
La note D est accordée aux travaux qui ne rencontrent qu’à moitié les exigences demandées ou qui comportent quelques erreurs graves. |
E F |
Échec |
0,5 0,0 |
La note E est attribuée aux travaux qui ne répondent pas aux exigences demandées. La note F est attribuée lorsqu’un travail ou un examen n’est pas remis ou lorsqu’un travail est remis après la date d’échéance fixée par le professeur, ou dans un cas de plagiat, copiage ou fraude. |
Ressources
Notes de cours
Les notes de cours seront mises en ligne sur le site Web du cours au fur et à mesure de l'avancement de la session. Il est à noter que les notes de cours sont un support à ce qui est présenté en classe et ne suffisent pas, à elles seules, pour comprendre la matière couverte.
Lectures
Les lectures obligatoires et suggérées seront précisées en cours de session.
Logiciels
Les logiciels utilisés dans le cadre du cours incluent un logiciel, Indexo, qui est installé sur les postes des laboratoires d’informatique de l’EBSI (local C-2027, C-2035 et C-2043 du pavillon Lionel-Groulx) et dont l'accès est restreint aux étudiants du cours.
Si des versions gratuites ou de démonstration des logiciels sont disponibles pour réaliser les travaux en dehors du laboratoire, les étudiants en seront avisés.
Autres
- textes et corpus numériques
- manuels d’utilisation et/ou de référence des logiciels étudiés