Jeux de données de fonctions

Les jeux de données de fonctions sont créés en tant que sortie de l’outil Créer un modèle de régression. Un jeu de données de fonctions contient l’équation et les statistiques d’un modèle de régression.

Utiliser un jeu de données de fonctions

Les jeux de données de fonctions sont utilisés comme entrée du modèle de régression pour Prédire une variable. Vous pouvez également ouvrir la fenêtre Prédire une variable en faisant glisser un jeu de données de fonctions sur une fiche de carte.

Un diagramme à points montrant les coefficients et intervalles de confiance pour l’intersection et chaque variable explicative peut être créé en développant un jeu de données de fonctions dans la fenêtre de données et en cliquant sur View confidence intervals (Afficher les intervalles de confiance).

Astuce :

Drag-N Drop Faites glisser un jeu de données de fonctions sur le diagramme à points créé à partir d'un autre modèle de régression pour comparer les intervalles de confiance pour les variables explicatives entre les modèles.

Statistiques

Les jeux de données de fonctions stockent l’équation et les statistiques d’un modèle de régression. Les statistiques peuvent être affichées en développant le jeu de données de fonctions dans la fenêtre de données ou en ouvrant la table de données.

Les statistiques suivantes sont disponibles dans la fenêtre de données :

StatistiqueDescription

Équation de régression

L’équation de régression se présente sous le format suivant :

y=b0+b1x1+b2x2+...+bnxn

où y est la variable dépendante, bn représente les paramètres calculés et xn représente les variables explicatives.

R2

La valeur R2, également appelée coefficient de détermination, est un chiffre compris entre 0 et 1 qui mesure avec quelle précision la ligne d'ajustement optimal modélise les points de données ; les valeurs les plus proches de 1 indiquant des modèles d’une plus grande précision.

R2 ajusté

La valeur R2 ajustée est également une mesure comprise entre 0 et 1, mais elle tient compte d’indicateurs supplémentaires qui peuvent entraîner une meilleure adéquation d’un modèle en fonction du hasard seul. Il est par conséquent préférable d’utiliser la valeur R2 ajustée lorsque le modèle comporte un grand nombre d’indicateurs ou lorsque vous comparez des modèles avec différents nombres d’indicateurs.

Durbin-Watson

Le test de Durbin-Watson mesure l’auto-corrélation des résiduels à partir d’une analyse de régression sur une échelle allant de 0 à 4. Sur cette échelle, la plage 0 à 2 indique une auto-corrélation positive, 2 indique l’absence d’auto-corrélation et la plage 2 à 4 indique une auto-corrélation négative. Une auto-corrélation basse est préférable dans un modèle de régression, ce qui signifie que les valeurs du test de Durbin-Watson plus proches de 2 sont plus favorables.

Remarque :

Le calcul du test de Durbin-Watson dépend de l’ordre de vos données. Il est important que vos données soient ordonnées de manière séquentielle, en particulier si les données ont rapport au temps. Si vos données ne sont pas classées correctement, la valeur du test de Durbin-Watson risque de ne pas être précise.

Erreur résiduelle standard

L’erreur résiduelle standard mesure la précision avec laquelle le modèle de régression peut prévoir les valeurs avec de nouvelles données. Des valeurs plus faibles indiquent un modèle plus précis. La valeur des degrés résiduels de liberté est également fournie avec l’erreur résiduelle standard.

statistique F

La statistique F sert à déterminer la capacité de prévision de votre modèle de régression en déterminant si les coefficients diffèrent significativement de 0. La statistique F est exprimée par une valeur supérieure ou égale à 0 et inclut deux valeurs pour les degrés de liberté ; la première valeur pour les degrés de liberté des variables explicatives, et la seconde pour les degrés de liberté des résiduels.

valeur p

La valeur p de la statistique F teste la pertinence globale de votre modèle de régression. Une valeur p est exprimée par une valeur comprise entre 0.0 et 1.0. Les valeurs comprises entre 0 et 0,05 indiquent que votre modèle global est pertinent d’un point de vue statistique.

Les statistiques suivantes sont disponibles dans la table de données :

StatistiqueDescription

Variable

L’intersection et les noms des variables explicatives.

Coefficient

Les valeurs b de l’équation de régression, qui correspondent à l’intersection y et la pente pour chaque variable explicative.

Erreur type

L’erreur type mesure la variation de chacun des indicateurs utilisés dans le modèle. Des valeurs plus faibles indiquent des indicateurs plus précis.

valeur t

La valeur t sert à déterminer la capacité de prévision de chaque coefficient de régression en déterminant si les coefficients diffèrent significativement de 0.

valeur p

La valeur p est liée à la valeur t et teste la pertinence locale des coefficients de votre modèle de régression. Une valeur p est exprimée par une valeur comprise entre 0.0 et 1.0. Les valeurs comprises entre 0,0 et 0,05 indiquent que votre coefficient est pertinent d’un point de vue statistique.

Intervalle de confiance

Les intervalles de confiance donnent les limites inférieures et supérieures dans lesquelles il est possible de dire avec un certain degré de certitude que le coefficient se situe dans la plage. Par exemple, si la limite inférieure de l’intervalle de confiance de 95 % est 10 et que la limite supérieure de l’intervalle de confiance de 95 % est 15, vous pouvez dire avec 95 % de certitude que la vraie valeur du coefficient se situe entre 10 et 15.

Les intervalles de confiance suivants sont donnés dans la table de données :

  • Limite inférieure de 90 pour cent
  • Limite supérieure de 90 pour cent
  • Limite inférieure de 95 pour cent
  • Limite supérieure de 95 pour cent
  • Limite inférieure de 99 pour cent
  • Limite supérieure de 99 pour cent

Coefficients normalisés

Les coefficients normalisés sont calculés en normalisant les données de façon à ce que la variance des variables dépendantes et explicatives soit égale à 1. Les coefficients normalisés sont particulièrement utiles pour comparer les valeurs de coefficient utilisant des unités de mesure différentes.

Intervalles de confiance normalisés

Les intervalles de confiance donnent les limites inférieures et supérieures dans lesquelles il est possible de dire avec un certain degré de certitude que le coefficient normalisé se situe dans la plage.

Les intervalles de confiance normalisés suivants sont donnés dans la table de données :

  • Limite inférieure de 90 %
  • Limite supérieure de 90 %
  • Limite inférieure de 95 %
  • Limite supérieure de 95 %
  • Limite inférieure de 99 %
  • Limite supérieure de 99 %

Pour plus d’information sur l’utilisation et l’interprétation des sorties statistiques dans un jeu de données de fonctions, consultez la rubrique Analyse de régression.