Skip To Content

Analyse de régression

L’analyse de régression calcule la relation estimée entre une variable dépendante et une ou plusieurs variables explicatives. Elle vous permet de modéliser la relation entre les variables choisies et de prévoir des valeurs en fonction du modèle.

Vue d’ensemble de l’analyse de régression

L’analyse de régression utilise une méthode d’estimation choisie, une variable dépendante et une ou plusieurs variables explicatives pour former une équation qui estime les valeurs de la variable dépendante.

Elle inclut des sorties, telles que R2 et des résiduels, pour fournir des informations sur la façon dont le modèle estime la variable dépendante.

Des diagrammes, tels que des matrices de nuages de points et des histogrammes, peuvent également être utilisés dans l’analyse de régression pour analyser les relations et tester les hypothèses.

L’analyse de régression peut servir à résoudre les types de problèmes suivants :

  • Identifier les variables explicatives qui sont associées à la variable dépendante.
  • Comprendre la relation entre les variables dépendantes et explicatives.
  • Prévoir les valeurs inconnues de la variable dépendante.

Exemples

Un analyste d’une petite chaîne de magasins étudie les performances des différentes implantations des points de vente. Il souhaite savoir pourquoi le volume des ventes de certains points de vente est si bas. L’analyste crée un modèle de régression avec des variables explicatives, telles que l’âge médian et le revenu médian dans le voisinage, ainsi que la distance pour se rendre aux centres commerciaux et les transports en commun, en vue d’identifier les variables qui ont une influence sur les ventes.

Un analyste du ministère de l’éducation étudie les effets des programmes de petit-déjeuner scolaire. Il crée un modèle de régression des résultats scolaires, tels que le taux de réussite aux examens, à l’aide de variables explicatives telles que la taille des classes, le revenu des ménages, le budget scolaire par élève et la proportion d’élèves qui prennent leur petit-déjeuner tous les jours. L’équation du modèle peut servir à déterminer l’effet relatif de chaque variable sur les résultats scolaires.

Un analyste d’un organisme non gouvernemental étudie les émissions mondiales de gaz à effet de serre. Il crée un modèle de régression correspondant aux émissions les plus récentes pour chaque pays à l’aide de variables explicatives, telles que le produit intérieur brut (PIB), la population, la production d’électricité avec des énergies fossiles et l’utilisation des véhicules. Le modèle peut ensuite servir à prévoir les futures émissions de gaz à effet de serre à l’aide des valeurs prévues pour le PIB et la population.

Fonctionnement de l’analyse de régression

L’analyse de régression dans Insights for ArcGIS est modélisée à l’aide de la méthode des moindres carrés ordinaires. Le modèle de régression comprend des statistiques en sortie qui permettent de déterminer comment le modèle estime la relation entre la variable dépendante et les variables explicatives.

Moindres carrés ordinaires

La méthode des moindres carrés ordinaires est une forme de régression multiple linéaire, c’est-à-dire que la relation entre les variables dépendantes et les variables indépendantes doivent être modélisées en adaptant une équation linéaire aux données observées.

Un modèle des moindres carrés ordinaires utilise l’équation suivante :

yi01x12x2+...+βnxn

où :

  • yi = valeur observée de la variable dépendante au point i
  • β0 = interception avec l’axe des y (valeur constante)
  • βn = coefficient de pente pour la variable explicative N au point i
  • xn = valeur de la variable N au point i
  • ε = erreur de l’équation de régression

Chaque méthode de régression comporte plusieurs hypothèses qui doivent être vérifiées pour que l’équation soit considérée comme fiable. Les hypothèses des moindres carrés ordinaires doivent être validées lors de la création d’un modèle de régression.

Les hypothèses suivantes doivent être testées et vérifiées pour utiliser la méthode des moindres carrés ordinaires :

Le modèle doit être linéaire

La régression des moindres carrés ordinaires peut uniquement servir à créer un modèle linéaire. La linéarité peut être testée entre la variable dépendante et les variables explicatives à l’aide d’un nuage de points. Une matrice de nuages de points permet de tester toutes les variables, à condition que leur nombre total ne dépasse pas cinq.

Les données doivent être échantillonnées de manière aléatoire

Les données utilisées dans l’analyse de régression doivent être échantillonnées de façon que les échantillons mêmes ne dépendent pas d’un facteur externe. L’échantillonnage aléatoire peut être testé à l’aide des résiduels du modèle de régression. Les résiduels, qui sont une sortie du modèle de régression, ne doivent présenter aucune corrélation lorsqu’ils sont tracés avec les variables explicatives sur un nuage de points ou une matrice de nuages de points.

Les variables explicatives ne doivent pas être colinéaires

La colinéarité désigne une relation linéaire entre des variables explicatives, ce qui génère une redondance dans le modèle. Dans certains cas, le modèle peut être créé avec une colinéarité. Toutefois, si une des variables colinéaires semble dépendre de l’autre, il peut être judicieux de supprimer cette variable du modèle. Vous pouvez tester la colinéarité à l’aide d’un nuages de points ou d’une matrice de nuages de points des variables explicatives.

Les variables explicatives doivent présenter une erreur de mesure négligeable

L’exactitude d’un modèle de régression est limité à celle de ses données en entrée. Si les variables explicatives présentent des marges d’erreur importantes, le modèle ne peut pas être accepté comme exact. Lorsque vous effectuez une analyse de régression, il est important d’utiliser uniquement des jeux de données issus de sources connues et fiables pour vous assurer que le taux d’erreur est négligeable.

La somme des résiduels est de zéro

Les résiduels correspondent à la différence entre les valeurs observées et attendues dans une analyse de régression. Les valeurs observées situées au-dessus de la courbe de régression ont une valeur résiduelle positive et les valeurs observées situées au-dessous de la courbe de régression ont une valeur résiduelle négative. La courbe de régression doit reposer le long du centre des points de données. Par conséquent, la somme des résiduels doit être égale à zéro. La somme d’un champ peut être calculée dans une table de synthèse.

La variance des résiduels est homogène

La variance doit être la même pour tous les résiduels. Cette hypothèse peut être testée à l’aide d’un variogramme ou d’un nuage de points des résiduels (axe des y) et des valeurs estimées (axe des x). Si vous utilisez un nuage de points, les points doivent sembler être tracés de manière aléatoire.

La distribution des résiduels est normale

Une distribution normale, également nommée courbe en forme de cloche, est une distribution qui se produit naturellement, où la fréquence d’un phénomène est élevée à proximité de la moyenne et se réduit à mesure qu’il s’éloigne de la moyenne. Une distribution normale est souvent utilisée comme hypothèse nulle dans une analyse statistique. Les résiduels doivent être distribués normalement pour montrer que la ligne d’ajustement est optimisée de façon centrale parmi les points de données observés, et non penchés vers certains et éloignés d’autres. Cette hypothèse peut être testée en créant un histogramme avec les résiduels. La courbe de distribution normale peut être superposée et les mesures d’inclinaison et d’aplatissement sont indiquées au bas de la fiche d’histogramme.

Les résiduels adjacents ne doivent pas présenter d’auto-corrélation

Cette hypothèse repose sur des données classées chronologiquement. Si les données sont classées chronologiquement, chaque point de données doit être indépendant du point de données précédent ou suivant. Il est par conséquent important de s’assurer que les données classées chronologiquement sont organisées dans l’ordre approprié lorsque vous effectuez une analyse de régression. Cette hypothèse peut être calculée à l’aide du test de Durbin-Watson.

Statistiques et sorties

L’exactitude d’une équation de régression joue un rôle important dans l’analyse de régression. Tous les modèles incluent une certaine marge d’erreur, mais comprendre les statistiques vous permettra de déterminer si le modèle peut être utilisé dans votre analyse ou si des ajustements doivent être apportés.

Coefficient de détermination, R2

Le coefficient de détermination, symbolisé par R2, mesure la façon dont l’équation de régression modélise les points de données réels. La valeur R2 est un nombre compris entre 0 et 1, les valeurs les plus proches de 1 indiquant des modèles d’une plus grande exactitude. Une valeur R2 égale à 1 désigne un modèle parfait, ce qui est hautement improbable dans des situations réelles, étant donné la complexité des interactions entre différents facteurs et des variables inconnues. Vous devez par conséquent vous efforcer de créer un modèle de régression dont la valeur R2 est la plus élevée possible, tout en acceptant que cette valeur ne soit pas proche de 1.

R2 ajusté

Lorsque vous réalisez une analyse de régression, vous risquez de créer par pur hasard un modèle de régression dont la valeur R2 est acceptable en ajoutant des variables explicatives qui déclenchent une meilleure adéquation. La valeur R2 ajustée, qui est également comprise entre 0 et 1, tient compte des variables explicatives supplémentaires, ce qui atténue le rôle que joue le hasard dans le calcul. La valeur R2 ajustée doit être utilisée pour les modèles qui utilisent de nombreuses variables explicatives ou pour comparer des modèles comportant différents nombres de variables explicatives.

Test de Durbin-Watson

Le test de Durbin-Watson mesure l’auto-corrélation des résiduels dans un modèle de régression. Il est important, car l’auto-corrélation dans les résiduels adjacents est une des hypothèses qui doivent être testées lorsque vous créez un modèle de régression.

Le test de Durbin-Watson utilise une échelle de 0 à 4, les valeurs comprises entre 0 et 2 indiquant une auto-corrélation positive, 2 indiquant l’absence d’auto-corrélation et les valeurs comprises entre 2 et 4 indiquant une auto-corrélation négative. Par conséquent, les valeurs proches de 2 doivent satisfaire l’hypothèse selon laquelle l’auto-corrélation est absente des résiduels.

Résiduels

Les valeurs résiduelles dans une analyse de régression correspondent aux différences entre les valeurs observées dans le jeu de données (en d’autres termes, les valeurs réelles de la variable dépendante) et les valeurs attendues calculées avec l’équation de régression.

Nuage de points avec valeurs résiduelles et ligne d’ajustement.

Les résiduels A et B de la relation ci-dessus sont calculés comme suit :

residualsA=observedA-expectedAresidualsA=595-483.1753 residualsA=111.8247
residualsB=observedB-expectedBresidualsB=392-545.8323 residualsB=153.8323

Les résiduels peuvent servir à calculer la marge d’erreur dans une équation de régression et à tester plusieurs hypothèses.