Cours 11 / SCI6007 Phase 3 : Éléments empiriques Analyse des données > Analyses statistiques > Statistiques inférentielles STATISTIQUES INFÉRENTIELLES : exploration et vérification de liens entre des variables (exemples de tests et mesures statistiques) utilisées pour les niveaux de recherche explicatif et prédictif pour mesurer l'association entre des variables Caractères qualitatifs Existence et nature d'un lien d'association entre deux variables = Test du khi deux; Coefficient de Spearman; Coefficient de contingence Caractères quantitatifs Analyse de corrélation = vérification de l'existence d'un lien entre deux variables et de la force de ce lien, s'il existe pour mesurer la causalité Analyse de régression = représentation quantifiée de la relation entre une variable dépendante et une ou des variables indépendantes en fonction du nombre de variables Régression multiple = analyse de régression entre une variable dépendante et plusieurs variables indépendantes Régression simple = analyse de régression entre une variable dépendante et une variable indépendante en fonction du type de relation entre les variables Régression linéaire = relation de premier degré entre les variables Par exemple : l'augmentation du nombre de documents empruntés est liée à l'augmentation du nombre d'heures d'ouverture Régression non-linéaire (exponentielle, logarithmique, etc.) Par exemple : l'augmentation du nombre de documents empruntés est liée au carré du nombre d'heures d'ouverture Tests mesurant l'équivalence des groupes = Test t de Student; Analyse de variance (ANOVA); etc. peuvent être Régression linéaire = relation de premier degré entre les variables Par exemple : l'augmentation du nombre de documents empruntés est liée à l'augmentation du nombre d'heures d'ouverture Régression multiple = analyse de régression entre une variable dépendante et plusieurs variables indépendantes Régression non-linéaire (exponentielle, logarithmique, etc.) Par exemple : l'augmentation du nombre de documents empruntés est liée au carré du nombre d'heures d'ouverture Régression simple = analyse de régression entre une variable dépendante et une variable indépendante © Christine Dufour 2005-2018, 2024, EBSI, Université de Montréal (Modifications Virginie Wenglenski et Marielle St-Germain © 2023) Cours 11 / SCI6007 Phase 3 : Éléments empiriques Analyse des données > Analyses statistiques > Statistiques inférentielles > Analyse de corrélation ANALYSE DE CORRÉLATION : permet de vérifier si un lien existe entre deux variables et, s'il existe, de quantifier la force du lien ce qu'elle ne permet pas Ne se prononce pas sur quelle variable est la cause et quelle variable est l'effet Parle en termes d'association et non de causalité représentation graphique Nuage de dispersion = représentation graphique des deux variables permettant de visuellement détecter l'existence, le type, le sens et la force d'un lien Comment faire? «Recette» . On fait un graphique en nuages de points où une variable est sur l'axe des x et l'autre sur l'axe des y . On examine le nuage de points pour voir si les points semblent suivre une certaine forme (par exemple une droite) ou au contraire sont dispersés sans aucune «logique» . Si on détecte une droite, (1) la dispersion des points autour de la droite représente la force du lien (plus les points sont proches de la droite, plus le lien est fort), et (2) sa pente (i.e. le sens de son inclinaison) représente la direction du lien valeur numérique Coefficient de corrélation de Pearson (r) = valeur numérique calculée représentant le sens et la force du lien caractéristiques . Valeur entre -1 et 1 . Plus la valeur (en absolu) se rapproche de 1, plus le lien est fort . Le signe de la valeur (positif ou négatif) indique le sens du lien (positif = direct, négatif = inverse) interprétation Repères (sciences sociales) Si la valeur absolue arrondie du coefficient se situe entre ... alors le lien est ... . De 0 à 0,1 : aucun lien ou très faible . De 0,2 à 0,3 : lien faible . De 0,4 à 0,5 : lien modéré . De 0,6 à 0,7 : lien fort . De 0,8 à 1 : lien très fort (on parle ici de multicolinéarité c'est-à-dire que le lien est tellement fort que l'on pourrait presque remplacer une variable par l'autre) © Christine Dufour 2005-2018, 2024, EBSI, Université de Montréal (Modifications Virginie Wenglenski et Marielle St-Germain © 2023) Cours 11 / SCI6007 Phase 3 : Éléments empiriques Analyse des données > Analyses statistiques > Statistiques inférentielles > Régression linéaire simple RÉGRESSION LINÉAIRE SIMPLE : permet d'analyser un lien de premier degré entre une variable dépendante et une variable indépendante étapes 1. Vérification de l'existence d'un lien et de sa force (corrélation) 2. Vérification, si un lien existe, de sa significativité 3. Si le lien est significatif (et non dû au hasard), calcul de la droite représentant le mieux le lien entre les deux variables. Cette droite de régression linéaire pourra servir à faire des prédictions rappel équation d'une droite dans Excel Comparez la valeur critique de F au seuil de significativité que vous voulez utiliser (souvent 5% i.e. 0,05) autre coefficient utile Coefficient de détermination (carré du coefficient de corrélation) = portion de la variable dépendante expliquée par la variable indépendante Par ex., coefficient de détermination = 0,42 signifie que 42% des variations de la variable dépendante sont expliquées par les variations de la variable indépendante © Christine Dufour 2005-2018, 2024, EBSI, Université de Montréal (Modifications Virginie Wenglenski et Marielle St-Germain © 2023)