L’outil Create Regression Model (Créer un modèle de régression) modélise la relation entre deux variables explicatives ou plus et une variable de réponse en adaptant une équation linéaire aux données observées. Chaque valeur de la variable indépendante (x) est associée à une valeur de la variable dépendante (y).
L’outil Créer un modèle de régression utilise le type de régression Moindres carrés ordinaires.
Exemple
Une organisation environnementale étudie la cause des émissions de gaz à effet de serre par pays de 1990 à 2015. L’outil Create Regression Model (Créer un modèle de régression) peut être utilisé afin de créer une équation pour estimer le volume des émissions de gaz à effet de serre par pays sur la base de variables explicatives, telles que la population et le produit intérieur brut.
Exécuter l’outil Create Regression Model (Créer un modèle de régression)
Procédez comme suit pour créer un modèle de régression :
- Créez une carte, un diagramme ou une table à l’aide du jeu de données avec lequel vous souhaitez créer un modèle de régression.
- Cliquez sur le bouton Action .
- Effectuez l’une des opérations suivantes :
- Pour les fiches de diagramme et de table, cliquez sur How is it related (Quel est le type de relation ?) dans la fenêtre Analytics (Analyse).
- Pour une fiche de carte, cliquez sur l’onglet Find answers (Trouver des réponses), puis sur How is it related? (Quel est le type de relation ?).
- Cliquez sur Create Regression Model (Créer un modèle de régression).
- Pour Choose a layer (Choisir une couche), sélectionnez le jeu de données à utiliser pour créer un modèle de régression.
- Pour Choose a dependent variable (Choisir une variable dépendante), sélectionnez le champ à expliquer avec le modèle.
Le champ doit être de type numérique ou taux/ratio.
- Cliquez sur Select explanatory variables (Sélectionner les variables explicatives) pour que s’ouvre un menu présentant les champs disponibles.
- Sélectionnez les champs à utiliser comme variables explicatives (également appelées variables indépendantes).
- Cliquez sur Select (Sélectionner) pour appliquer les variables explicatives.
- Cliquez sur le bouton Visualize (Visualiser) pour afficher un nuage de points ou une matrice de nuages de points des variables dépendantes et explicatives, si disponible.Les nuages de points peuvent être utilisés dans l’analyse exploratoire du modèle.
Remarque :
Le bouton Visualize (Visualiser) n’est pas disponible si cinq variables explicatives ou plus sont sélectionnées.
- Cliquez sur Run (Exécuter).
Le modèle de régression est créé pour les variables dépendantes et explicatives spécifiées. Vous pouvez maintenant utiliser les sorties et les statistiques pour continuer à vérifier la validité du modèle avec une analyse exploratoire et de confirmation.
Remarques sur l’utilisation
Pour accéder à l’outil Create Regression Model (Créer un modèle de régression), cliquez sur le bouton Action sous How is it related (Quel est le type de relation ?) dans l’onglet Find answers (Trouver des réponses).
Vous pouvez spécifier un champ numérique ou de taux/ratio comme variable dépendante. La variable dépendante est le champ numérique que vous tentez d’expliquer avec le modèle de régression. Par exemple, si vous créez un modèle de régression pour déterminer les causes de mortalité infantile, le taux de mortalité infantile est la variable dépendante.
Vous pouvez spécifier jusqu’à 20 champs numériques ou de taux/ratio comme variables explicatives. Les variables explicatives sont des variables indépendantes qui peuvent être spécifiées dans le cadre du modèle de régression pour expliquer la variable dépendante. Par exemple, si vous créez un modèle de régression visant à déterminer les causes de mortalité infantile, les variables explicatives peuvent inclure les taux de pauvreté, les taux de maladie et les taux de vaccination. Si le nombre de variables explicatives est inférieur ou égal à quatre, il est possible de créer un nuage de points ou une matrice de nuages de points en cliquant sur Visualize (Visualiser).
Les valeurs en sortie suivantes sont disponibles sous Model Statistics (Statistiques du modèle) :
- Équation de régression
- R2
- R2 ajusté
- Test de Durbin-Watson
- valeur de p
- Erreur résiduelle standard
- statistique F
Les sorties et statistiques peuvent servir à analyser la précision du modèle.
Une fois le modèle créé, un nouveau jeu de données de fonctions est ajouté à la fenêtre de données. Ce jeu de données de fonctions peut être utilisé avec l’outil Prédire une variable. L’outil Créer un modèle de régression permet également de créer un jeu de données de résultat, qui comprend tous les champs de l’entrée ainsi que les champs estimated, residual et standardized_residual. Les champs comportent les informations suivantes :
- estimated : valeur de la variable dépendante estimée par le modèle de régression
- residual : différence entre la valeur de champ d’origine et la valeur estimée de la variable dépendante
- standardized_residual : ratio du résiduel et de l’écart type du résiduel
Fonctionnement de l’outil Créer un modèle de régression
Un modèle de régression par les moindres carrés ordinaires peut être créé si les hypothèses suivantes se vérifient :
- Le modèle doit être linéaire dans les paramètres.
- Les données sont un échantillonnage aléatoire de la population.
- Les variables indépendantes ne sont pas fortement colinéaires.
- Les variables indépendantes sont mesurées avec précision de sorte que l’erreur de mesure est négligeable.
- Les résiduels attendus sont toujours égaux à zéro.
- Les résiduels ont une variance constante (variance homogène).
- Les résiduels sont distribués normalement.
L’outil Créer un modèle de régression s’exécute avec succès même si une ou plusieurs hypothèses ne sont pas vérifiées : Vous devez tester les hypothèses pour la méthode des moindres carrés ordinaires avant d’utiliser l’outil Create Regression Model (Créer un modèle de régression). Si les hypothèses ne sont pas vérifiées, il se peut que le modèle ne soit pas valide.
Il n’est pas possible de créer un modèle si la troisième hypothèse (les variables indépendantes ne sont pas fortement colinéaires) n’est pas vérifiée. Dans ce cas, le message Two or more explanatory variables are related. (Deux variables explicatives ou plus sont reliées.) Supprimez l’une des variables colinéaires et réessayez. apparaît. Vous pouvez identifier les variables colinéaires à l’aide d’un nuage de points ou d’une matrice de nuages de points. Les variables colinéaires ont une relation linéaire et l’une des variables a une forte dépendance envers l’autre. Retirez la variable colinéaire dépendante du modèle.
Pour plus d’informations sur les hypothèses des modèles de régression par les moindres carrés ordinaires, reportez-vous à la rubrique Analyse de régression.
Vous avez un commentaire à formuler concernant cette rubrique ?