Plan du cours SCI6134 - Outils ling. et gestion documentaire (Hiver 2014)

3 crédits

Préalables : SCI6051, SCI6052, SCI6055

Professeure agrégée : Lyne Da Sylva
Courriel : Lyne.Da.Sylva@UMontreal.CA
Téléphone : 514 343-6444
Bureau : C-2030, Pavillon Lionel-Groulx
Disponibilités : mercredi 15h-17h et sur rendez-vous

Site Web du cours : https://studium.umontreal.ca/course/view.php?id=49052


Les cours se donnent le jeudi de 13h à 16h, au local C-2031 du Pavillon Lionel-Groulx.


Description officielle

Application d'outils linguistiques à la chaîne documentaire pour la gestion (semi-)automatique de textes. Principes et fonctionnement des outils. Constitution de corpus. Applications à divers types d'analyses documentaires.

Objectifs d'apprentissage

 Le cours vise les objectifs généraux suivants :

  1. faire connaître les contextes d’applications des traitements linguistiques automatiques à l’intérieur de la chaîne documentaire et les types de logiciels utiles au traitement;
    1. d’utiliser divers logiciels pour effectuer des traitements linguistiques ou statistiques sur des documents textuels;
    2. de situer les technologies linguistiques disponibles et leur lieu d’application dans la chaîne documentaire.
  2. familiariser les étudiants avec la constitution et la structuration de corpus numériques en vue d’exploitations automatiques ou assistées par ordinateur;
    1. de constituer un corpus de documents textuels conformes à une thématique ou à un objectif précis;
  3. amener les étudiants à prendre conscience de l’état d’avancement variable des technologies linguistiques disponibles.
    1. d’analyser diverses statistiques des documents traités et évaluer leur pertinence pour l’analyse documentaire;
    2. de comparer la performance d’outils similaires;

Méthodes pédagogiques

Méthodes

• cours magistral et conférenciers invités
• petits travaux de groupes
• travaux pratiques
• démonstrations de logiciels
• lectures obligatoires
 

Contenu du cours

Ce cours vise à initier les étudiants aux technologies linguistiques qui peuvent être utiles à l'analyse documentaire automatique ou assistée par ordinateur.

Le cours se présente en deux temps: il débute par une introduction aux concepts de base en linguis­tique et en linguistique informatique ainsi qu’une présentation des outils de base qui peuvent mis être à contribution. Ensuite, l'application de ces éléments sera illustrée dans divers contextes de gestion docu­mentaire : en priorité l'indexation automatique, le résumé automatique et la classification automatique, mais aussi l'acquisition de documents, la diffusion d'information, la veille informationnelle, etc.

Les étudiants effectueront diverses expérimentations pour comprendre l'utilité, les caractéristiques, la portée et les limites de ces outils logiciels.

Les étudiants seront ainsi amenés à évaluer la contribution potentielle des diverses technologies aux tâches d'indexation, de condensation et de classification documentaires.

 

Calendrier des activités

DateActivité(s)Évaluation
2014-01-09

Présentation du cours. Les applications du traitement automatique de la langue (TAL) dans la chaîne documentaire. Introduction au TAL et à la linguistique.

 
2014-01-16

Défis du traitement intellectuel des documents par des moyens automatiques I. Identifier les mots et les variantes de mots.

Énoncé TP1

2014-01-23

Défis du traitement intellectuel des documents par des moyens automatiques II. Identifier le sens des mots et les multitermes.

Remise TP1

Énoncé TP2

2014-01-30

Défis du traitement intellectuel des documents par des moyens automatiques III. Identifier les phrases et les unités thématiques.

Remise TP2

Énoncé TP3

2014-02-06

La création, la représentation et le stockage des documents. Corpus et linguistique de corpus.

Remise TP3

Énoncé TP4

2014-02-13

L’analyse documentaire I : introduction. Linguistique textuelle.

 
2014-02-20

L’analyse documentaire II : l'indexation. Les propriétés statistiques du lexique.

Remise TP4

Énoncé TP5

2014-02-27

L’analyse documentaire III : la production d’un résumé. La distribution des phrases dans un texte.

 
2014-03-06

Semaine de lecture (pas de cours)

 

 
2014-03-13

L'analyse documentaire IV : le résumé automatique. Les modèles de compréhension.

 

 
2014-03-20

L'acquisition des documents. La reconnaissance optique des caractères; la traduction automatique.

Remise TP5

2014-03-27

Le repérage des documents. Expansion de requêtes; recherche d'information translinguistique.

 
2014-04-03

La classification des documents. Classification, catégorisation, clustering.

La sélection et la diffusion des documents. Liens avec la classification automatique.

 
2014-04-10

Les ressources documentaires : la constitution de thésaurus. Extraction de terminologie.

 
2014-04-17

Présentations orales.

Présentation orale

2014-04-24

Remise des travaux.

Remise du travail final

Calendrier provisoire au 8 janvier 2014. La matière et sa répartition entre les cours sont sujettes à changement en fonction de la vitesse de progression et de la disponibilité des conférenciers.

Évaluation

Travaux pratiques

Ils se font seuls ou en équipe de deux personnes. Les séances de travail supervisées ne sont pas nécessairement suffisantes pour compléter les travaux; il sera parfois nécessaire de revenir au laboratoire sur une base individuelle (en réservant un poste de travail à l'avance). Il faut également prévoir du temps pour préparer le rapport.
Les rapports doivent être remis à la professeure au plus tard au début du cours.
Pour les travaux réalisés en équipe, la professeure se réserve le droit d’évaluer séparément chaque membre d’une équipe.


Cinq travaux pratiques (60%)

  • extraction de mots et fréquences d’un ensemble de textes 10%
  • extraction de termes d’un ensemble de textes 10%
  • exercice de segmentation manuelle et automatique de textes 10%
  • constitution d’un corpus de textes 15%
  • indexation d’un corpus de textes 15%

Travail de recherche

Un travail individuel (40%) : une recherche portant sur un scénario de gestion documentaire à l'aide d'outils automatiques (avec analyse critique).

  • Présentation orale 10%
  • Rapport écrit 30%

 

Lien entre les objectifs spécifiques et la validation des apprentissages

 TP1 : extraction de mots et fréquences d’un ensemble de textesTP2 : extraction de termes d’un ensemble de textesTP3 : segmentation manuelle et automatique de textesTP4 : constitution d’un corpus de textesTP5 : indexation d’un corpus de textesTravail de recherche
d’utiliser divers logiciels pour effectuer des traitements linguistiques ou statistiques sur des documents textuels;XXXXX
de situer les technologies linguistiques disponibles et leur lieu d’application dans la chaîne documentaire.X
de constituer un corpus de documents textuels conformes à une thématique ou à un objectif précis;X
d’analyser diverses statistiques des documents traités et évaluer leur pertinence pour l’analyse documentaire;XXX
de comparer la performance d’outils similaires;XXXX

Politiques, règlements et directives

L’ensemble des politiques, règlements et directives énoncés dans le guide étudiant s’appliquent. Une attention particulière est à porter aux éléments suivants.

Délais et dates de remise des travaux
Les retards seront traités conformément à la politique de l'EBSI (voir le Guide de l'étudiant).

Règlement disciplinaire sur le plagiat ou sur la fraude concernant les étudiants
Il est attendu que tous les étudiants inscrits au cours respectent le code d'honneur de l'EBSI (http://www.ebsi.umontreal.ca/sout/code-honneur.html). Le plagiat à l'Université de Montréal est sanctionné par le Règlement disciplinaire sur la fraude et le plagiat concernant les étudiants. Pour plus de renseignements, consultez le site www.integrite.umontreal.ca.

Qualité de la langue
La professeure tiendra compte de la qualité du français dans l'évaluation des travaux et peut enlever jusqu’à 10 % de la note (voir Guide de l'étudiant).

Afin de minimiser les problèmes dus à la qualité de la langue, on conseille l’utilisation d’un logiciel comme le logiciel de correction grammaticale et orthographique Antidote, qui est installé sur tous les postes des laboratoires informatiques facultaires C-3001et C-3115 du pavillon Lionel-Groulx.

Mode de communication
Le mode de communication privilégié entre la professeure et les étudiant(e)s est le courriel. Veuillez vous assurer que vous êtes officiellement inscrit(e) au cours et maintenez à jour l'adresse de courriel enregistrée dans votre profil informatique à l'Université de Montréal. Vous devez lire votre courriel très régulièrement (au moins une fois par jour), des informations importantes concernant le cours ou les TP pouvant être diffusées par ce moyen.


Très important : pour toute correspondance concernant le cours, veuillez inscrire obligatoirement au début du champ sujet du message la chaîne suivante : [SCI6134] (incluant les crochets).

Évaluation

L’évaluation des travaux se fait selon le barême suivant (Guide étudiant, p. 28) :

Barême d'évaluation
Lettre Signification Points Critères d'évaluation
A+
A
A-
Excellent 4,3
4,0
3,7
La note A+ est réservée aux travaux excellents ou exceptionnels qui dépassent les exigences demandées.                 
La note A est accordée aux travaux excellents qui répondent exactement aux exigences demandées.
B+
B
B-
Très bon 3,3
3,0
2,7
La note B est accordée aux travaux qui répondent exactement aux exigences demandées, avec certaines corrections mineures.
C+
C
C-
Bon 2,3
2,0
1,7
La note C est accordée aux travaux qui répondent, dans l’ensemble, assez bien aux exigences demandées, avec quelques erreurs sans gravité majeure.
D+
D
Passable 1,3
1,0
La note D est accordée aux travaux qui ne rencontrent qu’à moitié les exigences demandées ou qui comportent quelques erreurs graves.
E
F
Échec 0,5
0,0
La note E est attribuée aux travaux qui ne répondent pas aux exigences demandées.
La note F est attribuée lorsqu’un travail ou un examen n’est pas remis ou lorsqu’un travail est remis après la date d’échéance fixée par le professeur, ou dans un cas de plagiat, copiage ou fraude.

 

Ressources

Notes de cours

Les notes de cours seront mises en ligne sur le site Web du cours au fur et à mesure de l'avancement de la session. Il est à noter que les notes de cours sont un support à ce qui est présenté en classe et ne suffisent pas, à elles seules, pour comprendre la matière couverte.

Lectures

Les lectures obligatoires et suggérées seront précisées en cours de session.

Logiciels

Les logiciels utilisés dans le cadre du cours incluent un logiciel, Indexo, qui est installé sur les postes des laboratoires d’informatique de l’EBSI (local C-2035 et C-2031 du pavillon Lionel Groulx) et dont l'accès est restreint aux étudiants du cours.

Si des versions gratuites ou de démonstration des logiciels sont disponibles pour réaliser les travaux en dehors du laboratoire, vous en serez avisés.

Autres

- textes et corpus numériques

- manuels d’utilisation et/ou de référence des logiciels étudiés