Cours 11 / SCI6007 Phase 3 : Éléments empiriques Analyse des données > Analyses statistiques > Statistiques inférentielles
STATISTIQUES INFÉRENTIELLES : exploration et vérification de liens entre des variables (exemples de tests et mesures statistiques)
    utilisées pour les niveaux de recherche explicatif et prédictif
    pour mesurer l'association entre des variables
        Caractères qualitatifs
            Existence et nature d'un lien d'association entre deux variables = Test du khi deux; Coefficient de Spearman; Coefficient de contingence
        Caractères quantitatifs
            Analyse de corrélation = vérification de l'existence d'un lien entre deux variables et de la force de ce lien, s'il existe
    pour mesurer la causalité
        Analyse de régression = représentation quantifiée de la relation entre une variable dépendante et une ou des variables indépendantes
            en fonction du nombre de variables
                Régression multiple = analyse de régression entre une variable dépendante et plusieurs variables indépendantes
                Régression simple = analyse de régression entre une variable dépendante et une variable indépendante
            en fonction du type de relation entre les variables
                Régression linéaire = relation de premier degré entre les variables Par exemple : l'augmentation du nombre de documents empruntés est liée à l'augmentation du nombre d'heures d'ouverture
                Régression non-linéaire (exponentielle, logarithmique, etc.) Par exemple : l'augmentation du nombre de documents empruntés est liée au carré du nombre d'heures d'ouverture
        Tests mesurant l'équivalence des groupes = Test t de Student; Analyse de variance (ANOVA); etc.
peuvent être
    Régression linéaire = relation de premier degré entre les variables Par exemple : l'augmentation du nombre de documents empruntés est liée à l'augmentation du nombre d'heures d'ouverture
    Régression multiple = analyse de régression entre une variable dépendante et plusieurs variables indépendantes
    Régression non-linéaire (exponentielle, logarithmique, etc.) Par exemple : l'augmentation du nombre de documents empruntés est liée au carré du nombre d'heures d'ouverture
    Régression simple = analyse de régression entre une variable dépendante et une variable indépendante
© Christine Dufour 2005-2018, 2024, EBSI, Université de Montréal (Modifications Virginie Wenglenski et Marielle St-Germain © 2023)


Cours 11 / SCI6007 Phase 3 : Éléments empiriques Analyse des données > Analyses statistiques > Statistiques inférentielles > Analyse de corrélation
ANALYSE DE CORRÉLATION : permet de vérifier si un lien existe entre deux variables et, s'il existe, de quantifier la force du lien
    ce qu'elle ne permet pas
        Ne se prononce pas sur quelle variable est la cause et quelle variable est l'effet Parle en termes d'association et non de causalité
    représentation graphique
        Nuage de dispersion = représentation graphique des deux variables permettant de visuellement détecter l'existence, le type, le sens et la force d'un lien
            Comment faire?
                «Recette» . On fait un graphique en nuages de points où une variable est sur l'axe des x et l'autre sur l'axe des y . On examine le nuage de points pour voir si les points semblent suivre une certaine forme (par exemple une droite) ou au contraire sont dispersés sans aucune «logique» . Si on détecte une droite, (1) la dispersion des points autour de la droite représente la force du lien (plus les points sont proches de la droite, plus le lien est fort), et (2) sa pente (i.e. le sens de son inclinaison) représente la direction du lien
    valeur numérique
        Coefficient de corrélation de Pearson (r) = valeur numérique calculée représentant le sens et la force du lien
            caractéristiques
                . Valeur entre -1 et 1 . Plus la valeur (en absolu) se rapproche de 1, plus le lien est fort . Le signe de la valeur (positif ou négatif) indique le sens du lien (positif = direct, négatif = inverse)
            interprétation
                Repères (sciences sociales) Si la valeur absolue arrondie du coefficient se situe entre ... alors le lien est ... . De 0 à 0,1 : aucun lien ou très faible . De 0,2 à 0,3 : lien faible . De 0,4 à 0,5 : lien modéré . De 0,6 à 0,7 : lien fort . De 0,8 à 1 : lien très fort (on parle ici de multicolinéarité c'est-à-dire que le lien est tellement fort que l'on pourrait presque remplacer une variable par l'autre)
© Christine Dufour 2005-2018, 2024, EBSI, Université de Montréal (Modifications Virginie Wenglenski et Marielle St-Germain © 2023)


Cours 11 / SCI6007 Phase 3 : Éléments empiriques Analyse des données > Analyses statistiques > Statistiques inférentielles > Régression linéaire simple
RÉGRESSION LINÉAIRE SIMPLE : permet d'analyser un lien de premier degré entre une variable dépendante et une variable indépendante
    étapes
        1. Vérification de l'existence d'un lien et de sa force (corrélation)
            2. Vérification, si un lien existe, de sa significativité
                3. Si le lien est significatif (et non dû au hasard), calcul de la droite représentant le mieux le lien entre les deux variables. Cette droite de régression linéaire pourra servir à faire des prédictions
                    rappel
                        équation d'une droite
                dans Excel
                    Comparez la valeur critique de F au seuil de significativité que vous voulez utiliser (souvent 5% i.e. 0,05)
            autre coefficient utile
                Coefficient de détermination (carré du coefficient de corrélation) = portion de la variable dépendante expliquée par la variable indépendante Par ex., coefficient de détermination = 0,42 signifie que 42% des variations de la variable dépendante sont expliquées par les variations de la variable indépendante
© Christine Dufour 2005-2018, 2024, EBSI, Université de Montréal (Modifications Virginie Wenglenski et Marielle St-Germain © 2023)