L’outil Créer un modèle de régression permet de modéliser la relation entre deux variables explicatives ou plus et une variable de réponse en adaptant une équation linéaire aux données observées. Chaque valeur de la variable indépendante (x) est associée à une valeur de la variable dépendante (y).
L’outil Créer un modèle de régression utilise le type de régression Moindres carrés ordinaires.
Exemple
Une organisation environnementale étudie la cause des émissions de gaz à effet de serre par pays de 1990 à 2015. L’outil Créer un modèle de régression permet de créer une équation pour estimer le volume des émissions de gaz à effet de serre par pays sur la base de variables explicatives, telles que la population et le produit intérieur brut (PIB).
Utiliser l’outil Créer un modèle de régression
Suivez les étapes suivantes pour exécuter l’outil d’analyse Créer un modèle de régression :
- Créez une carte, un diagramme ou une table à l’aide du jeu de données avec lequel vous souhaitez créer un modèle de régression.
- Cliquez sur le bouton Action .
- Effectuez l'une des opérations suivantes :
- Si votre fiche est un diagramme ou une table, cliquez sur How is it related (Quel est le type de relation ?) dans la fenêtre Analytics (Analyse).
- Si votre fiche est une carte, cliquez sur l'onglet Find answers (Trouver des réponses) et cliquez sur How is it related? (Quel est le type de relation ?).
- Cliquez sur Create Regression Model (Créer un modèle de régression).
- Pour Choose a layer (Choisir une couche), sélectionnez le jeu de données avec lequel vous souhaitez créer un modèle de régression.
- Pour Choose a dependent variable (Choisir une variable dépendante), sélectionnez le champ que vous souhaitez expliquer avec votre modèle. Le champ doit être de type numérique ou taux/ratio.
- Cliquez sur Select explanatory variables (Sélectionner les variables explicatives) pour que s’ouvre un menu présentant les champs disponibles.
- Sélectionnez les champs à utiliser comme variables explicatives (également appelées variables indépendantes).
- Cliquez sur Select (Sélectionner) pour appliquer les variables explicatives.
- Cliquez sur le bouton Visualize (Visualiser) pour afficher un nuage de points ou une matrice de nuages de points des variables dépendantes et explicatives, si disponible. Les nuages de points peuvent être utilisés dans l’analyse exploratoire de votre modèle.
Remarque :
Le bouton Visualize (Visualiser) n’est pas disponible si 5 variables explicatives ou plus sont sélectionnées.
- Cliquez sur Run (Exécuter).
Le modèle de régression est créé pour les variables dépendantes et explicatives que vous avez sélectionnées. Vous pouvez maintenant utiliser les sorties et les statistiques pour continuer à vérifier la validité du modèle avec une analyse exploratoire et de confirmation.
Remarques sur l'utilisation
L’outil Créer un modèle de régression est accessible à l’aide du bouton Action , situé au-dessous de la section How is it related? (Quel est le type de relation ?) de l’onglet Find Answers (Trouver des réponses).
Vous pouvez choisir un champ numérique ou de taux/ratio comme variable dépendante. La variable dépendante est le champ numérique que vous tentez d’expliquer avec votre modèle de régression. Par exemple, si vous créez un modèle de régression pour déterminer les causes de mortalité infantile, le taux de mortalité infantile est la variable dépendante.
Vous pouvez choisir jusqu’à 20 champs numériques ou de taux/ratio comme variables explicatives. Les variables explicatives sont des variables indépendantes qui peuvent être sélectionnées dans le cadre du modèle de régression pour expliquer la variable dépendante. Par exemple, si vous créez un modèle de régression visant à déterminer les causes de mortalité infantile, les variables explicatives peuvent inclure les taux de pauvreté, les taux de maladie et les taux de vaccination. Si le nombre de variables explicatives choisi est inférieur ou égal à quatre, il est possible de créer un nuage de points ou une matrice de nuages de points en cliquant sur Visualize (Visualiser).
Les valeurs en sortie suivantes sont données sous Model Statistics (Statistiques du modèle) :
- Équation de régression
- R2
- R2 ajusté
- Test de Durbin-Watson
- valeur de p
- Erreur résiduelle standard
- statistique F
Les sorties et statistiques peuvent servir à analyser la précision du modèle.
Une fois le modèle créé, un nouveau jeu de données de fonctions est ajouté à la fenêtre de données. Ce jeu de données de fonctions peut être utilisé avec l’outil Prédire une variable. L’outil Créer un modèle de régression permet également de créer un jeu de données de résultat, qui comprend tous les champs de l’entrée ainsi que les champs estimated, residual et standardized_residual. Les champs comportent les informations suivantes :
- estimated : valeur de la variable dépendante estimée par le modèle de régression
- residual : différence entre la valeur de champ d’origine et la valeur estimée de la variable dépendante
- standardized_residual : ratio du résiduel et de l’écart type du résiduel
Fonctionnement de l’outil Créer un modèle de régression
Un modèle Moindres carrés ordinaires peut être créé si les hypothèses suivantes se vérifient :
- Le modèle doit être linéaire dans les paramètres.
- Les données sont un échantillonnage aléatoire de la population.
- Les variables indépendantes ne sont pas trop fortement colinéaires.
- Les variables indépendantes sont mesurées avec précision de sorte que l’erreur de mesure est négligeable.
- Les résiduels attendus sont toujours égaux à zéro.
- Les résiduels ont une variance constante (variance homogène).
- Les résiduels sont distribués normalement.
L’outil Créer un modèle de régression s’exécute avec succès même si une ou plusieurs hypothèses ne sont pas vérifiées : C’est pourquoi, vous devez tester les hypothèses pour la méthode des moindres carrés ordinaires avant d’utiliser l’outil Créer un modèle de régression. Si les hypothèses ne sont pas vérifiées, il se peut que le modèle ne soit pas valide.
Il n’est pas possible de créer un modèle si la troisième hypothèse, à savoir les variables indépendantes ne sont pas trop fortement colinéaires, n’est pas vérifiée. Dans ce cas, le message Two or more explanatory variables are related. Remove one of the collinear variables and try again. (Deux variables explicatives ou plus sont reliées. Supprimez l’une des variables colinéaires et réessayez.) s’affiche. Vous pouvez déterminer les variables colinéaires à l’aide d’un nuage de points ou d’une matrice de nuages de points. Les variables colinéaires ont une relation linéaire et l’une des variables a une forte dépendance envers l’autre. Retirez la variable colinéaire dépendante du modèle.
Pour plus d’informations sur les hypothèses des modèles des moindres carrés ordinaires, reportez-vous à la rubrique Analyse de régression.
Vous avez un commentaire à formuler concernant cette rubrique ?