Analyse d’inférence causale (Statistiques spatiales)

Synthèse

Estime l’effet causal d’une variable d’exposition continue sur une variable de résultat continue en faisant une approximation d’une expérience aléatoire et en incluant les variables de confusion.

Dans les expériences statistiques, la relation de cause à effet entre une variable d’exposition (telle qu’une dose de médicament) et une variable de résultat (telle que le résultat clinique) est déterminée par l’attribution aléatoire à chaque participant d’un niveau d’exposition particulier, de sorte que toute différence dans les résultats ne puisse être due qu’à la différence d’exposition, et non à d’autres caractéristiques des participants, comme l’âge, des pathologies préexistantes et l’accès aux soins. Toutefois, il est souvent impossible ou contraire à l’étique d’effectuer des expériences contrôlées ; par conséquent, les relations sont souvent établies par observation. Par exemple, pour étudier l’effet de la pollution sur les taux de dépression, vous ne pouvez pas exposer intentionnellement des individus à une pollution élevée pour en observer l’effet sur la dépression. Vous pouvez seulement observer l’exposition à la pollution et les taux de dépression des individus composant votre échantillon. Cependant, de nombreuses variables (appelées variables de confusion) ayant un impact à la fois sur la pollution et sur la dépression, l’effet causal ne peut pas être estimé directement sans inclure ces variables.

Pour émuler le processus d’une expérience aléatoire et contrôlée, l’outil calcule des scores de propension pour chaque observation. Ceux-ci sont utilisés pour pondérer les observations de sorte que la relation causale entre les variables d’exposition et de résultat soit conservée et que les corrélations entre les variables de confusion et la variable d’exposition soient supprimées. Ce jeu de données pondéré est souvent appelé pseudo-population et possède des propriétés analogues à une expérience contrôlée dans laquelle une exposition est attribuée aléatoirement à chaque participant. Grâce aux observations pondérées, l’outil crée une fonction exposition-réponse (ERF) qui estime ce que serait le résultat moyen si tous les membres de la population étaient soumis à une valeur d’exposition donnée, mais ne modifiaient pas leurs variables de confusion.

En savoir plus sur le fonctionnement de l’analyse d’inférence causale

Illustration

Illustration de l’outil Analyse d’inférence causale
L’effet causal entre une exposition et un résultat est estimé en équilibrant les variables de confusion.

Utilisation

  • Dans une analyse d’inférence causale, il est supposé que toutes les variables de confusion importantes sont incluses dans le modèle. En d’autres termes, si des variables ayant un impact sur les variables d’exposition et de résultat ne sont pas incluses en tant que variables de confusion, l’estimation de l’effet causal est biaisée. L’outil n’est pas en mesure de déterminer si toutes les variables de confusion importantes ont été incluses, il est donc essentiel de prendre en compte celles qui sont susceptibles d’être associées aux variables d’exposition et de résultat et de les inclure dans le modèle. Si des variables de confusion importantes ne sont pas disponibles en vue de cette inclusion, il est recommandé d’interpréter les résultats de l’outil avec précaution et scepticisme. Ou bien, n’utilisez pas l’outil tant que vous ne pouvez pas acquérir de données pour l’ensemble des variables de confusion.

  • La variable d’exposition doit être continue (elle ne doit pas être binaire ni catégorielle), mais les variables de confusion peuvent être continues, catégorielles ou binaires. Il est recommandé que la variable de résultat soit continue, mais les variables de résultat binaires sont admises et peuvent souvent être interprétées comme des probabilités ou des proportions.

  • L’outil accepte les jeux de données en entrée spatiaux et non spatiaux. Vous pouvez utiliser des tables, des points, des polygones et des polylignes en entrée ; le type de la sortie sera le même que celui de l’entrée.

  • La sortie principale de l’outil est une fonction ERF renvoyée sous forme de couche de graphiques dans une carte active et en tant qu’image dans les messages de géotraitement. Vous pouvez également créer une table contenant diverses valeurs exposition-réponse en utilisant le paramètre Table en sortie de la fonction exposition-réponse.

    En savoir plus sur l’ERF

  • Le paramètre Méthode de calcul des scores de propension permet d’indiquer la façon dont les scores de propension sont estimés. Les scores de propension sont des vraisemblances (ou probabilités) de recevoir une valeur d’exposition particulière, compte tenu d’un ensemble de variables de confusion. Les scores de propension sont estimés en créant un modèle qui prévoit la variable d’exposition à partir des variables de confusion. Les méthodes de calcul des scores de propension suivantes sont disponibles :

  • Le paramètre Méthode d’équilibrage permet d’indiquer la façon dont les scores de propension seront utilisés pour équilibrer les variables de confusion. Deux méthodes d’équilibrage sont disponibles :

    • Appariement des scores de propension : chaque observation est appariée à diverses autres observations possédant des scores de propension similaires, mais des valeurs d’exposition différentes. En comparant la valeur de résultat de l’observation aux valeurs de résultat des appariements, vous pouvez voir quelle aurait été la valeur de résultat de l’observation si l’exposition avait été différente. Une fois toutes les observations appariées à diverses autres observations, une pondération d’équilibrage égale au nombre d’appariements de l’observation à une autre observation est attribuée à chaque observation. Le raisonnement qui sous-tend ce schéma de pondération est le suivant : les observations dont le nombre d’appariements est élevé possèdent des variables de confusion communes à plusieurs valeurs de la variable d’exposition et ne sont donc pas représentatives de l’effet causal.
    • Pondération par l’inverse du score de propension : des pondérations d’équilibrage sont attribuées à chaque observation en inversant les scores de propension, puis en multipliant par la probabilité globale d’atteindre l’exposition donnée. Ainsi, des pondérations d’équilibrage plus élevées sont attribuées aux observations dont les scores de propension sont faibles et des pondérations d’équilibrage plus faibles sont attribuées aux observations dont les scores de propension sont élevés. Le raisonnement qui sous-tend ce schéma de pondération est le suivant : les scores de propension mesurent le degré de fréquence ou de rareté de la valeur d’exposition pour le jeu spécifique de variables de confusion. En augmentant l’influence (c’est-à-dire en augmentant la pondération d’équilibrage) des observations rares (observations avec un faible score de propension) et en diminuant l’influence des observations fréquentes, la proportion des distributions globales des variables de confusion est conservée dans toutes les valeurs de la variable d’exposition.

    En savoir plus sur les scores de propension, l’appariement des scores de propension et la pondération par l’inverse du score de propension

  • Par défaut, l’outil réduit (retire de l’analyse) les observations qui présentent les 1 pour cent supérieur et inférieur des valeurs d’exposition. Les valeurs extrêmes ou les points aberrants dans la variable d’exposition peuvent introduire un biais dans les analyses d’inférence causale. En réduisant ces valeurs extrêmes, vous pouvez diminuer l’impact des observations influentes susceptibles de fausser l’estimation de l’effet causal. Vous pouvez changer l’ampleur de la réduction de l’exposition avec les paramètres Quantile d’exposition inférieur et Quantile d’exposition supérieur. Vous pouvez également réduire les observations en fonction de leurs scores de propension à l’aide des paramètres Quantile de score de propension inférieur et Quantile de score de propension supérieur, mais aucune réduction des scores de propension n’est effectuée par défaut. Si vous utilisez la pondération par l’inverse du score de propension, il est souvent nécessaire de réduire certains des scores de propension les plus faibles car les scores de propension proches de zéro peuvent générer des pondérations d’équilibrage élevées et instables.

  • La table ou les entités en sortie contiendront des champs des scores de propension, des pondérations d’équilibrage et un champ indiquant si l’entité a été réduite (0 signifie que l’entité a été réduite et 1 qu’elle a été incluse dans l’analyse). Des copies des variables d’exposition, de résultat et de confusion sont également incluses.

  • L’équilibrage entre les variables de confusion et la variable d’exposition est essentielle pour dériver la relation causale entre les variables d’exposition et de résultat. Pour déterminer si les pondérations d’équilibrage équilibrent effectivement les variables de confusion, l’outil calcule les corrélations pondérées entre chaque variable de confusion et la variable d’exposition (pondérée par les pondérations d’équilibrage). Les corrélations pondérées sont alors agrégées et comparées à une valeur de seuil. Si la corrélation agrégée est inférieure au seuil, les variables de confusion sont jugées équilibrées. Vous pouvez spécifier le type d’agrégation (corrélation absolue moyenne, médiane ou maximale) à l’aide du paramètre Type d’équilibrage et indiquer la valeur de seuil dans le paramètre Seuil d’équilibrage. Par défaut, l’outil utilise la corrélation moyenne absolue et une valeur de seuil égale à 0,1. Il est courant d’utiliser la valeur de seuil 0,1, mais il est conseillé d’adapter le seuil en fonction de votre expertise, des objectifs de recherche et des caractéristiques intrinsèques de la population étudiée. Une valeur de seuil basse indique une moindre tolérance par rapport au biais lors de l’estimation de l’effet causal ; cependant, il est plus difficile d’atteindre l’équilibre avec des seuils bas.

  • Si les pondérations d’équilibrage ne sont pas suffisantes pour équilibrer les variables de confusion, l’outil renvoie une erreur et ne produit pas d’ERF. Néanmoins, divers messages indiquent dans quelle mesure les variables de confusion ont été équilibrées. Il est recommandé d’essayer en premier lieu de résoudre l’erreur en sélectionnant des variables de confusion et différentes options pour les paramètres Méthode de calcul des scores de propension et Méthode d’équilibrage. Si vous ne parvenez pas à résoudre l’erreur ainsi, essayez d’utiliser une autre option pour le paramètre Type d’équilibrage ou d’augmenter la valeur du paramètre Seuil d’équilibrage afin de générer une ERF. Cette solution peut toutefois introduire un biais dans l’estimation de l’effet causal.

    En savoir plus sur l’obtention de variables de confusion équilibrées

  • Les variables de confusion doivent contenir un éventail de valeurs provenant de la plage entière de la variable d’exposition. Les variables de confusion catégorielles doivent présenter un large éventail de valeurs d’exposition dans chaque niveau de la catégorie et une variable catégorielle ne peut pas comporter plus de 60 catégories. Pour l’appariement des scores de propension, si la variation de la variable d’exposition n’est pas suffisamment représentée dans toutes les valeurs de chaque variable de confusion, il sera difficile d’atteindre l’équilibre.

  • Vous pouvez utiliser le paramètre Valeurs de résultat cibles pour le calcul de nouvelles expositions afin d’explorer les scénarios hypothétiques (parfois appelés scénarios contrefactuels) pour chaque observation. En utilisant une ERF locale pour chaque observation, l’outil calcule le niveau d’exposition nécessaire pour chaque observation permettant d’obtenir le résultat souhaité. Par exemple, chaque comté peut estimer le niveau de pollution qui serait nécessaire pour générer un taux d’hospitalisations liées à l’asthme inférieur à un objectif donné. Si des valeurs de résultat cibles sont fournies, la table ou les entités en sortie incluent deux champs supplémentaires pour chaque résultat cible : l’un pour la nouvelle valeur d’exposition et l’autre pour la différence entre la nouvelle valeur d’exposition et la valeur d’exposition actuelle. Si plusieurs valeurs d’exposition peuvent générer le résultat cible, l’outil utilise celle qui est la plus proche de la valeur d’exposition actuelle de l’observation. De même, vous pouvez aussi fournir des valeurs d’exposition cibles dans le paramètre Valeurs d’exposition cibles pour le calcul de nouveaux résultats afin de déterminer dans quelle mesure la variable de résultat peut changer localement pour diverses expositions cibles.

    Si une table ERF en sortie est créée, les valeurs de résultat cibles ou les valeurs d’exposition cibles sont ajoutées à la fin de la table. S’il existe plusieurs solutions pour un résultat cible, toutes les solutions sont incluses dans la table.

  • Si le paramètre Activer les fenêtres contextuelles de la fonction exposition-réponse est sélectionné, des fonctions exposition-réponse locales seront créées pour chaque observation. Les ERF locales sont affichées sous forme de graphiques dans les fenêtres contextuelles de la table ou des entités en sortie. La création d’ERF locales requiert l’hypothèse supplémentaire d’un effet de traitement constant, qui n’est souvent pas respectée pour les variables telles que la race, le revenu et le genre.

    En savoir plus sur l’estimation et les hypothèses d’une ERF locale

    Attention :

    Si les observations sont nombreuses, la création de fenêtres contextuelles peut solliciter beaucoup de mémoire et de ressources. Il est recommandé d’exécuter l’outil sans activer les fenêtres contextuelles lors des phases exploratoires de modélisation et de ne les créer qu’une fois que tous les autres paramètres de l’outil ont été déterminés.

  • On pense souvent à tort que l’effet causal peut être estimé uniquement en incluant les variables de confusion en tant que variables explicatives dans un modèle prédictif tel que l’outil Régression linéaire généralisée ou Classification et régression basées sur une forêt et boostées. Toutefois, cela est vrai uniquement si toutes les variables explicatives sont indépendantes de la variable d’exposition et si toutes les variables concernées sont incluses dans le modèle. Étant donné que la majorité des jeux de données contiennent des variables mutuellement associées les unes aux autres, il est impossible d’estimer directement l’effet causal.

  • La méthodologie de l’outil s’appuie sur les références suivantes :

    • Khoshnevis, Naeem, Xiao Wu, and Danielle Braun. 2023. « CausalGPS: Matching on Generalized Propensity Scores with Continuous Exposures. » R package version 0.4.0. https://CRAN.R-project.org/package=CausalGPS.
    • Wu, Xiao, Fabrizia Mealli, Marianthi-Anna Kioumourtzoglou, Francesca Dominici, and Danielle Braun. 2022. « Matching on Generalized Propensity Scores with Continuous Exposures. » Journal of the American Statistical Association. https://doi.org/10.1080/01621459.2022.2144737.

Paramètres

ÉtiquetteExplicationType de données
Entités ou table en entrée

Table ou entités en entrée contenant des champs des variables d’exposition, de résultat et de confusion.

Feature Layer; Table View
Champ de résultat

Champ numérique de la variable de résultat. Il s’agit de la variable qui réagit aux modifications de la variable d’exposition. La variable de résultat doit être continue ou binaire (et non catégorielle).

Field
Champ d’exposition

Champ numérique de la variable d’exposition (parfois appelée variable de traitement). Il s’agit de la variable à l’origine des modifications dans la variable de résultat. La variable d’exposition doit être continue (et non binaire ou catégorielle).

Field
Variables de confusion

Champs des variables de confusion. Il s’agit des variables qui sont liées à la fois à la variable d’exposition et à la variable de résultat. Elles doivent être équilibrées pour l’estimation de l’effet causal entre la variable d’exposition et la variable de résultat. Les variables de confusion peuvent être continues, catégorielles ou binaires. Les champs de texte doivent être catégoriels, les champs de type entier peuvent être catégoriels ou continus et les autres champs numériques doivent être continus.

Pour éviter tout biais de la fonction exposition-réponse, toutes les variables qui sont associées aux variables d’exposition et de résultat doivent être incluses en tant que variables de confusion.

Value Table
Entités ou table en sortie

Table ou entités en sortie contenant les scores de propension, les pondérations d’équilibrage et un champ indiquant si l’entité a été réduite (exclue de l’analyse). Les variables d’exposition, de résultat et de confusion sont également incluses.

Feature Class; Table
Méthode de calcul des scores de propension
(Facultatif)

Indique la méthode qui sera utilisée pour calculer les scores de propension de chaque observation.

Le score de propension d’une observation est la vraisemblance (ou probabilité) de recevoir la valeur d’exposition observée, compte tenu des valeurs des variables de confusion. Un score de propension élevé indique que l’exposition est fréquente pour les individus qui présentent les variables de confusion associées. Un score de propension faible indique que la valeur d’exposition est rare pour les individus qui présentent ces variables de confusion. Considérons par exemple le cas d’une personne dont la pression artérielle est élevée (variable d’exposition) mais qui ne présente pas de facteurs de risque (variables de confusion) : cette personne aura probablement un score de propension faible car il est rare d’avoir une pression artérielle élevée sans présenter de facteur de risque. À l’inverse, une personne dont la pression artérielle est élevée et qui présente de nombreux facteurs de risque aura un score de propension plus élevé puisque c’est le cas le plus courant.

Les scores de propension sont estimés par un modèle statistique qui prévoit la variable d’exposition en utilisant les variables de confusion comme variables explicatives. Vous pouvez utiliser un modèle de régression des moindres carrés ordinaires ou un modèle d’apprentissage automatique qui utilise des arbres de régression du boosting de gradient. Il est recommandé d’utiliser d’abord la régression et de n’utiliser le boosting de gradient que si la régression ne parvient pas à équilibrer les variables de confusion.

  • RégressionLa régression des moindres carrés ordinaires sera utilisée pour estimer les scores de propension. Il s’agit de l’option par défaut.
  • Boosting de gradientLes arbres de régression du boosting de gradient seront utilisés pour estimer les scores de propension.
String
Méthode d’équilibrage
(Facultatif)

Indique la méthode qui sera utilisée pour équilibrer les variables de confusion.

Chaque méthode estime un ensemble de pondérations d’équilibrage qui supprime la corrélation entre les variables de confusion et la variable d’exposition. Il est recommandé d’utiliser l’appariement en premier lieu et de n’utiliser la pondération par l’inverse du score de propension que si l’appariement ne parvient pas à équilibrer les variables de confusion. La pondération par l’inverse du score de propension sera calculée plus vite que l’appariement des scores de propension. Par conséquent, elle est également recommandée lorsque le temps de calcul de l’appariement n’est pas acceptable pour les données.

  • Appariement des scores de propensionL’appariement des scores de propension sera utilisé pour équilibrer les variables de confusion. Il s’agit de l’option par défaut.
  • Pondération par l’inverse du score de propensionLa pondération par l’inverse du score de propension sera utilisée pour équilibrer les variables de confusion.
String
Activer les fenêtres contextuelles de la fonction exposition-réponse
(Facultatif)

Indique si des diagrammes contextuels affichant l’ERF locale pour l’observation seront créés pour chaque observation.

  • Option sélectionnée : des diagrammes contextuels affichant l’ERF locale seront créés dans la table ou les entités en sortie.
  • Option désélectionnée : aucun diagramme contextuel affichant l’ERF locale ne sera créé dans la table ou les entités en sortie. Il s’agit de l’option par défaut.
Boolean
Table en sortie de la fonction exposition-réponse
(Facultatif)

Table contenant les valeurs de la fonction exposition-réponse. La table comportera 200 valeurs d’exposition équidistantes comprises entre l’exposition minimale et l’exposition maximale (après réduction) ainsi que la réponse estimée de la fonction exposition-réponse. Le champ de réponse représente la valeur moyenne de la variable de résultat si tous les membres de la population ont été soumis à la valeur d’exposition associée. Si des intervalles de confiance bootstrap sont créés, des champs supplémentaires contenant les limites supérieure et inférieure de l’intervalle de confiance pour la valeur d’exposition, ainsi que l’écart standard et le nombre d’échantillons utilisés pour construire l’intervalle de confiance, seront créés. Si des valeurs d’exposition et des valeurs de résultat cibles sont fournies, elles seront ajoutées à la fin de la table.

Table
Valeurs de résultat cibles pour le calcul de nouvelles expositions
(Facultatif)

Liste de valeurs de résultat cibles à partir desquelles seront calculées les modifications à apporter à l’exposition pour obtenir les résultats pour chaque observation. Par exemple, si la variable d’exposition est un indice de qualité de l’air et que la variable de résultat est le taux annuel d’hospitalisations liées à l’asthme dans les comtés, vous pouvez déterminer de combien l’indice de qualité de l’air doit diminuer pour obtenir des taux d’hospitalisations liées à l’asthme inférieurs à 0,01, 0,005 et 0,001. Pour chaque valeur de résultat cible fournie, deux nouveaux champs seront créés dans la sortie. Le premier champ contient la valeur d’exposition qui génèrerait le résultat cible et le deuxième champ contient la modification à apporter à la valeur d’exposition pour produire le résultat cible (les valeurs positives indiquent que l’exposition doit être augmentée alors que les valeurs négatives indiquent qu’elle doit être diminuée). Dans certains cas, il n’existe pas de solution pour certaines observations. Ainsi, ne fournissez que des résultats cibles réalisables en modifiant la variable d’exposition. Par exemple, aucun niveau PM2.5 ne peut générer un taux d’hospitalisations liées à l’asthme de zéro. Par conséquent, l’utilisation d’un résultat cible égal à zéro ne produira aucune solution. Si plusieurs valeurs d’exposition peuvent générer le résultat cible, celle qui nécessite la modification la moins importante de l’exposition sera utilisée.

Si une table en sortie de la fonction exposition-réponse est créée, elle inclura toutes les valeurs de résultat cibles ainsi que les valeurs d’exposition associées, qui seront ajoutées à la fin de la table. S’il existe plusieurs solutions, plusieurs enregistrements seront ajoutés à la table, dans laquelle les valeurs de résultat seront répétées.

Si des diagrammes contextuels affichant l’ERF locale sont créés, les résultats cibles et les valeurs d’exposition associées seront affichés dans les fenêtres contextuelles de chaque observation.

Double
Valeurs d’exposition cibles pour le calcul de nouveaux résultats
(Facultatif)

Liste des valeurs d’exposition cibles qui seront utilisées pour calculer de nouveaux résultats pour chaque observation. Pour chaque valeur d’exposition cible, l’outil estime la nouvelle valeur de résultat que l’observation obtiendrait si sa variable d’exposition était remplacée par l’exposition cible. Par exemple, si la variable d’exposition est un indice de qualité de l’air et que la variable de résultat est le taux annuel d’hospitalisations liées à l’asthme dans les comtés, vous pouvez estimer dans quelle mesure le taux d’hospitalisations liées à l’asthme pour chaque observation changerait pour différents niveaux de qualité de l’air. Pour chaque valeur d’exposition cible fournie, deux nouveaux champs seront créés dans la sortie. Le premier champ contient la valeur de résultat estimée si l’observation a reçu l’exposition cible et le deuxième champ contient la modification estimée de la variable de résultat (les valeurs positives indiquent que la variable de résultat augmentera et les valeurs négatives qu’elle diminuera). Les expositions cibles doivent être comprises dans la plage de la variable d’exposition après réduction.

Si une table en sortie de la fonction exposition-réponse est créée, elle inclura toutes les valeurs d’exposition cibles ainsi que les valeurs de réponse associées, qui seront ajoutées à la fin de la table.

Si des diagrammes contextuels affichant l’ERF locale sont créés, les valeurs d’exposition cibles et les résultats associés seront affichés dans les fenêtres contextuelles de chaque entité.

Double
Quantile d’exposition inférieur
(Facultatif)

Quantile inférieur qui sera utilisé pour réduire la variable d’exposition. Les observations dont les valeurs d’exposition sont inférieures à ce quantile seront exclues de l’analyse avant l’estimation des scores de propension. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0,01 et signifie que le 1 pour cent inférieur des valeurs d’exposition sera réduit. Il est recommandé de réduire certaines des valeurs d’exposition les plus basses pour améliorer l’estimation des scores de propension.

Double
Quantile d’exposition supérieur
(Facultatif)

Quantile supérieur qui sera utilisé pour réduire la variable d’exposition. Les observations dont les valeurs d’exposition sont supérieures à ce quantile seront exclues de l’analyse avant l’estimation des scores de propension. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0,99 et signifie que le 1 pour cent supérieur des valeurs d’exposition sera réduit. Il est recommandé de réduire certaines des valeurs d’exposition les plus élevées pour améliorer l’estimation des scores de propension.

Double
Quantile de score de propension inférieur
(Facultatif)

Quantile inférieur qui sera utilisé pour réduire les scores de propension. Les observations dont les scores de propension sont inférieurs à ce quantile seront exclues de l’analyse avant l’appariement des scores de propension ou la pondération par l’inverse du score de pondération. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0 et signifie qu’aucune réduction ne sera effectuée.

La réduction des scores de propension inférieurs est souvent nécessaire si vous utilisez la pondération à l’inverse du score de pondération. Les scores de propension proches de zéro peuvent générer des pondérations d’équilibrage élevées et instables.

Double
Quantile de score de propension supérieur
(Facultatif)

Quantile supérieur qui sera utilisé pour réduire les scores de propension. Les observations dont les scores de propension sont supérieurs à ce quantile seront exclues de l’analyse avant l’appariement des scores de propension ou la pondération par l’inverse du score de pondération. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 1 et signifie qu’aucune réduction ne sera effectuée.

Double
Nombre de groupes d’exposition
(Facultatif)

Nombre de groupes d’exposition qui seront utilisés pour l’appariement des scores de propension. Lors de l’appariement, la variable d’exposition est divisée en groupes équidistants (intervalles égaux) et l’appariement a lieu dans chaque groupe. Au moins deux groupes d’exposition sont requis et il est recommandé qu’au moins cinq valeurs d’exposition soient incluses dans chaque groupe. Si aucune valeur n’est fournie, la valeur est estimée pendant l’exécution de l’outil et affichée dans les messages.

Long
Pondération relative du score de propension par rapport à l’exposition
(Facultatif)

Pondération relative (parfois appelée échelle) du score de propension par rapport à la variable d’exposition qui sera utilisée lors de l’appariement du score de propension. Dans chaque groupe d’exposition, les appariements sont déterminés en fonction des différences de score de propension et de valeur de la variable d’exposition. Ce paramètre permet de hiérarchiser les critères. Par exemple, une valeur égale à 0,5 indique que la même pondération est attribuée au score de propension et aux variables d’exposition lors de l’identification d’observations d’appariement.

Si aucune valeur n’est fournie, la valeur est estimée pendant l’exécution de l’outil et affichée dans les messages. Il est difficile de prévoir la valeur qui assurera le meilleur équilibre ; il est donc recommandé d’autoriser l’outil à l’estimer. Vous pouvez fournir une valeur manuellement pour réduire le temps de calcul ou pour reproduire des résultats antérieurs. Si la fonction exposition-réponse obtenue montre des bandes verticales d’observations avec des pondérations élevées, l’augmentation de la pondération relative peut fournir une fonction exposition-réponse plus réaliste et plus précise.

Double
Type d’équilibrage
(Facultatif)

Indique la méthode qui sera utilisée pour déterminer si les variables de confusion sont équilibrées. Une fois les pondérations estimées à l’aide de l’appariement des scores de propension ou de la pondération par l’inverse du score de pondération, des corrélations pondérées sont calculées pour chaque variable de confusion. Si la corrélation absolue moyenne, médiane ou maximale est inférieure au seuil d’équilibrage, les variables de confusion sont jugées équilibrées, c’est-à-dire suffisamment décorrélées de la variable d’exposition.

  • MoyenneLes variables de confusion seront jugées équilibrées si la corrélation absolue moyenne est inférieure au seuil d’équilibrage. Il s’agit de l’option par défaut.
  • MédianeLes variables de confusion seront jugées équilibrées si la corrélation absolue médiane est inférieure au seuil d’équilibrage.
  • MaximumLes variables de confusion seront jugées équilibrées si la corrélation absolue maximale est inférieure au seuil d’équilibrage.
String
Seuil d’équilibrage
(Facultatif)

Valeur de seuil qui sera comparée aux corrélations pondérées des variables de confusion pour déterminer si elles sont équilibrées. La valeur doit être comprise entre 0 et 1. Un seuil d’équilibrage plus élevé indique une plus grande tolérance au déséquilibre des variables de confusion et au biais dans la fonction exposition-réponse. La valeur par défaut est 0,1.

Double
Méthode d’estimation de la largeur de bande
(Facultatif)

Indique la méthode qui sera utilisée pour estimer la bande passante de la fonction exposition-réponse.

  • Plug-inUne méthode de plug-in sera utilisée pour estimer la bande passante. Il s’agit de l’option par défaut.
  • Validation croiséeLa bande passante minimisant l’erreur quadratique moyenne de validation sera utilisée.
  • ManuelleUne bande passante personnalisée sera utilisée.
String
Bande passante
(Facultatif)

Valeur de la bande passante de la fonction exposition-réponse lors de l’utilisation d’une bande passante manuelle.

Double
Créer des intervalles de confiance bootstrap
(Facultatif)

Indique si des intervalles de confiance de 95 pour cent pour la fonction exposition-réponse seront créés à l’aide du bootstrap m-out-of-n. Les intervalles de confiance apparaîtront dans la couche de graphiques en sortie sous forme de lignes pointillées au-dessus et en dessous de la fonction exposition-réponse.

  • Option sélectionnée : des intervalles de confiance pour la fonction exposition-réponse seront créés.
  • Options désélectionnée : aucun intervalle de confiance pour la fonction exposition-réponse ne sera créé. Il s’agit de l’option par défaut.
Boolean

arcpy.stats.CausalInferenceAnalysis(in_features, outcome_field, exposure_field, confounding_variables, out_features, {ps_method}, {balancing_method}, {enable_erf_popups}, {out_erf_table}, {target_outcomes}, {target_exposures}, {lower_exp_trim}, {upper_exp_trim}, {lower_ps_trim}, {upper_ps_trim}, {num_bins}, {scale}, {balance_type}, {balance_threshold}, {bw_method}, {bandwidth}, {create_bootstrap_ci})
NomExplicationType de données
in_features

Table ou entités en entrée contenant des champs des variables d’exposition, de résultat et de confusion.

Feature Layer; Table View
outcome_field

Champ numérique de la variable de résultat. Il s’agit de la variable qui réagit aux modifications de la variable d’exposition. La variable de résultat doit être continue ou binaire (et non catégorielle).

Field
exposure_field

Champ numérique de la variable d’exposition (parfois appelée variable de traitement). Il s’agit de la variable à l’origine des modifications dans la variable de résultat. La variable d’exposition doit être continue (et non binaire ou catégorielle).

Field
confounding_variables
[[var1, cat1], [var2, cat2],...]

Champs des variables de confusion. Il s’agit des variables qui sont liées à la fois à la variable d’exposition et à la variable de résultat. Elles doivent être équilibrées pour l’estimation de l’effet causal entre la variable d’exposition et la variable de résultat. Les variables de confusion peuvent être continues, catégorielles ou binaires. Les champs de texte doivent être catégoriels, les champs de type entier peuvent être catégoriels ou continus et les autres champs numériques doivent être continus.

Pour éviter tout biais de la fonction exposition-réponse, toutes les variables qui sont associées aux variables d’exposition et de résultat doivent être incluses en tant que variables de confusion.

Value Table
out_features

Table ou entités en sortie contenant les scores de propension, les pondérations d’équilibrage et un champ indiquant si l’entité a été réduite (exclue de l’analyse). Les variables d’exposition, de résultat et de confusion sont également incluses.

Feature Class; Table
ps_method
(Facultatif)

Indique la méthode qui sera utilisée pour calculer les scores de propension de chaque observation.

Le score de propension d’une observation est la vraisemblance (ou probabilité) de recevoir la valeur d’exposition observée, compte tenu des valeurs des variables de confusion. Un score de propension élevé indique que l’exposition est fréquente pour les individus qui présentent les variables de confusion associées. Un score de propension faible indique que la valeur d’exposition est rare pour les individus qui présentent ces variables de confusion. Considérons par exemple le cas d’une personne dont la pression artérielle est élevée (variable d’exposition) mais qui ne présente pas de facteurs de risque (variables de confusion) : cette personne aura probablement un score de propension faible car il est rare d’avoir une pression artérielle élevée sans présenter de facteur de risque. À l’inverse, une personne dont la pression artérielle est élevée et qui présente de nombreux facteurs de risque aura un score de propension plus élevé puisque c’est le cas le plus courant.

Les scores de propension sont estimés par un modèle statistique qui prévoit la variable d’exposition en utilisant les variables de confusion comme variables explicatives. Vous pouvez utiliser un modèle de régression des moindres carrés ordinaires ou un modèle d’apprentissage automatique qui utilise des arbres de régression du boosting de gradient. Il est recommandé d’utiliser d’abord la régression et de n’utiliser le boosting de gradient que si la régression ne parvient pas à équilibrer les variables de confusion.

  • REGRESSIONLa régression des moindres carrés ordinaires sera utilisée pour estimer les scores de propension. Il s’agit de l’option par défaut.
  • GRADIENT_BOOSTINGLes arbres de régression du boosting de gradient seront utilisés pour estimer les scores de propension.
String
balancing_method
(Facultatif)

Indique la méthode qui sera utilisée pour équilibrer les variables de confusion.

Chaque méthode estime un ensemble de pondérations d’équilibrage qui supprime la corrélation entre les variables de confusion et la variable d’exposition. Il est recommandé d’utiliser l’appariement en premier lieu et de n’utiliser la pondération par l’inverse du score de propension que si l’appariement ne parvient pas à équilibrer les variables de confusion. La pondération par l’inverse du score de propension sera calculée plus vite que l’appariement des scores de propension. Par conséquent, elle est également recommandée lorsque le temps de calcul de l’appariement n’est pas acceptable pour les données.

  • MATCHINGL’appariement des scores de propension sera utilisé pour équilibrer les variables de confusion. Il s’agit de l’option par défaut.
  • WEIGHTINGLa pondération par l’inverse du score de propension sera utilisée pour équilibrer les variables de confusion.
String
enable_erf_popups
(Facultatif)

Indique si des diagrammes contextuels affichant l’ERF locale pour l’observation seront créés pour chaque observation.

  • CREATE_POPUPDes diagrammes contextuels affichant l’ERF locale seront créés dans la table ou les entités en sortie.
  • NO_POPUPAucun diagramme contextuel affichant l’ERF locale ne sera créé dans la table ou les entités en sortie. Il s’agit de l’option par défaut.
Boolean
out_erf_table
(Facultatif)

Table contenant les valeurs de la fonction exposition-réponse. La table comportera 200 valeurs d’exposition équidistantes comprises entre l’exposition minimale et l’exposition maximale (après réduction) ainsi que la réponse estimée de la fonction exposition-réponse. Le champ de réponse représente la valeur moyenne de la variable de résultat si tous les membres de la population ont été soumis à la valeur d’exposition associée. Si des intervalles de confiance bootstrap sont créés, des champs supplémentaires contenant les limites supérieure et inférieure de l’intervalle de confiance pour la valeur d’exposition, ainsi que l’écart standard et le nombre d’échantillons utilisés pour construire l’intervalle de confiance, seront créés. Si des valeurs d’exposition et des valeurs de résultat cibles sont fournies, elles seront ajoutées à la fin de la table.

Table
target_outcomes
[target_outcomes,...]
(Facultatif)

Liste de valeurs de résultat cibles à partir desquelles seront calculées les modifications à apporter à l’exposition pour obtenir les résultats pour chaque observation. Par exemple, si la variable d’exposition est un indice de qualité de l’air et que la variable de résultat est le taux annuel d’hospitalisations liées à l’asthme dans les comtés, vous pouvez déterminer de combien l’indice de qualité de l’air doit diminuer pour obtenir des taux d’hospitalisations liées à l’asthme inférieurs à 0,01, 0,005 et 0,001. Pour chaque valeur de résultat cible fournie, deux nouveaux champs seront créés dans la sortie. Le premier champ contient la valeur d’exposition qui génèrerait le résultat cible et le deuxième champ contient la modification à apporter à la valeur d’exposition pour produire le résultat cible (les valeurs positives indiquent que l’exposition doit être augmentée alors que les valeurs négatives indiquent qu’elle doit être diminuée). Dans certains cas, il n’existe pas de solution pour certaines observations. Ainsi, ne fournissez que des résultats cibles réalisables en modifiant la variable d’exposition. Par exemple, aucun niveau PM2.5 ne peut générer un taux d’hospitalisations liées à l’asthme de zéro. Par conséquent, l’utilisation d’un résultat cible égal à zéro ne produira aucune solution. Si plusieurs valeurs d’exposition peuvent générer le résultat cible, celle qui nécessite la modification la moins importante de l’exposition sera utilisée.

Si une table en sortie de la fonction exposition-réponse est créée, elle inclura toutes les valeurs de résultat cibles ainsi que les valeurs d’exposition associées, qui seront ajoutées à la fin de la table. S’il existe plusieurs solutions, plusieurs enregistrements seront ajoutés à la table, dans laquelle les valeurs de résultat seront répétées.

Si des diagrammes contextuels affichant l’ERF locale sont créés, les résultats cibles et les valeurs d’exposition associées seront affichés dans les fenêtres contextuelles de chaque observation.

Double
target_exposures
[target_exposures,...]
(Facultatif)

Liste des valeurs d’exposition cibles qui seront utilisées pour calculer de nouveaux résultats pour chaque observation. Pour chaque valeur d’exposition cible, l’outil estime la nouvelle valeur de résultat que l’observation obtiendrait si sa variable d’exposition était remplacée par l’exposition cible. Par exemple, si la variable d’exposition est un indice de qualité de l’air et que la variable de résultat est le taux annuel d’hospitalisations liées à l’asthme dans les comtés, vous pouvez estimer dans quelle mesure le taux d’hospitalisations liées à l’asthme pour chaque observation changerait pour différents niveaux de qualité de l’air. Pour chaque valeur d’exposition cible fournie, deux nouveaux champs seront créés dans la sortie. Le premier champ contient la valeur de résultat estimée si l’observation a reçu l’exposition cible et le deuxième champ contient la modification estimée de la variable de résultat (les valeurs positives indiquent que la variable de résultat augmentera et les valeurs négatives qu’elle diminuera). Les expositions cibles doivent être comprises dans la plage de la variable d’exposition après réduction.

Si une table en sortie de la fonction exposition-réponse est créée, elle inclura toutes les valeurs d’exposition cibles ainsi que les valeurs de réponse associées, qui seront ajoutées à la fin de la table.

Si des diagrammes contextuels affichant l’ERF locale sont créés, les valeurs d’exposition cibles et les résultats associés seront affichés dans les fenêtres contextuelles de chaque entité.

Double
lower_exp_trim
(Facultatif)

Quantile inférieur qui sera utilisé pour réduire la variable d’exposition. Les observations dont les valeurs d’exposition sont inférieures à ce quantile seront exclues de l’analyse avant l’estimation des scores de propension. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0,01 et signifie que le 1 pour cent inférieur des valeurs d’exposition sera réduit. Il est recommandé de réduire certaines des valeurs d’exposition les plus basses pour améliorer l’estimation des scores de propension.

Double
upper_exp_trim
(Facultatif)

Quantile supérieur qui sera utilisé pour réduire la variable d’exposition. Les observations dont les valeurs d’exposition sont supérieures à ce quantile seront exclues de l’analyse avant l’estimation des scores de propension. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0,99 et signifie que le 1 pour cent supérieur des valeurs d’exposition sera réduit. Il est recommandé de réduire certaines des valeurs d’exposition les plus élevées pour améliorer l’estimation des scores de propension.

Double
lower_ps_trim
(Facultatif)

Quantile inférieur qui sera utilisé pour réduire les scores de propension. Les observations dont les scores de propension sont inférieurs à ce quantile seront exclues de l’analyse avant l’appariement des scores de propension ou la pondération par l’inverse du score de pondération. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0 et signifie qu’aucune réduction ne sera effectuée.

La réduction des scores de propension inférieurs est souvent nécessaire si vous utilisez la pondération à l’inverse du score de pondération. Les scores de propension proches de zéro peuvent générer des pondérations d’équilibrage élevées et instables.

Double
upper_ps_trim
(Facultatif)

Quantile supérieur qui sera utilisé pour réduire les scores de propension. Les observations dont les scores de propension sont supérieurs à ce quantile seront exclues de l’analyse avant l’appariement des scores de propension ou la pondération par l’inverse du score de pondération. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 1 et signifie qu’aucune réduction ne sera effectuée.

Double
num_bins
(Facultatif)

Nombre de groupes d’exposition qui seront utilisés pour l’appariement des scores de propension. Lors de l’appariement, la variable d’exposition est divisée en groupes équidistants (intervalles égaux) et l’appariement a lieu dans chaque groupe. Au moins deux groupes d’exposition sont requis et il est recommandé qu’au moins cinq valeurs d’exposition soient incluses dans chaque groupe. Si aucune valeur n’est fournie, la valeur est estimée pendant l’exécution de l’outil et affichée dans les messages.

Long
scale
(Facultatif)

Pondération relative (parfois appelée échelle) du score de propension par rapport à la variable d’exposition qui sera utilisée lors de l’appariement du score de propension. Dans chaque groupe d’exposition, les appariements sont déterminés en fonction des différences de score de propension et de valeur de la variable d’exposition. Ce paramètre permet de hiérarchiser les critères. Par exemple, une valeur égale à 0,5 indique que la même pondération est attribuée au score de propension et aux variables d’exposition lors de l’identification d’observations d’appariement.

Si aucune valeur n’est fournie, la valeur est estimée pendant l’exécution de l’outil et affichée dans les messages. Il est difficile de prévoir la valeur qui assurera le meilleur équilibre ; il est donc recommandé d’autoriser l’outil à l’estimer. Vous pouvez fournir une valeur manuellement pour réduire le temps de calcul ou pour reproduire des résultats antérieurs. Si la fonction exposition-réponse obtenue montre des bandes verticales d’observations avec des pondérations élevées, l’augmentation de la pondération relative peut fournir une fonction exposition-réponse plus réaliste et plus précise.

Double
balance_type
(Facultatif)

Indique la méthode qui sera utilisée pour déterminer si les variables de confusion sont équilibrées. Une fois les pondérations estimées à l’aide de l’appariement des scores de propension ou de la pondération par l’inverse du score de pondération, des corrélations pondérées sont calculées pour chaque variable de confusion. Si la corrélation absolue moyenne, médiane ou maximale est inférieure au seuil d’équilibrage, les variables de confusion sont jugées équilibrées, c’est-à-dire suffisamment décorrélées de la variable d’exposition.

  • MEANLes variables de confusion seront jugées équilibrées si la corrélation absolue moyenne est inférieure au seuil d’équilibrage. Il s’agit de l’option par défaut.
  • MEDIANLes variables de confusion seront jugées équilibrées si la corrélation absolue médiane est inférieure au seuil d’équilibrage.
  • MAXIMUMLes variables de confusion seront jugées équilibrées si la corrélation absolue maximale est inférieure au seuil d’équilibrage.
String
balance_threshold
(Facultatif)

Valeur de seuil qui sera comparée aux corrélations pondérées des variables de confusion pour déterminer si elles sont équilibrées. La valeur doit être comprise entre 0 et 1. Un seuil d’équilibrage plus élevé indique une plus grande tolérance au déséquilibre des variables de confusion et au biais dans la fonction exposition-réponse. La valeur par défaut est 0,1.

Double
bw_method
(Facultatif)

Indique la méthode qui sera utilisée pour estimer la bande passante de la fonction exposition-réponse.

  • PLUG_INUne méthode de plug-in sera utilisée pour estimer la bande passante. Il s’agit de l’option par défaut.
  • CVLa bande passante minimisant l’erreur quadratique moyenne de validation sera utilisée.
  • MANUALUne bande passante personnalisée sera utilisée.
String
bandwidth
(Facultatif)

Valeur de la bande passante de la fonction exposition-réponse lors de l’utilisation d’une bande passante manuelle.

Double
create_bootstrap_ci
(Facultatif)

Indique si des intervalles de confiance de 95 pour cent pour la fonction exposition-réponse seront créés à l’aide du bootstrap m-out-of-n.

  • CREATE_CIDes intervalles de confiance pour la fonction exposition-réponse seront créés.
  • NO_CIAucun intervalle de confiance pour la fonction exposition-réponse ne sera créé. Il s’agit de l’option par défaut.
Boolean

Exemple de code

Exemple 1 d’utilisation de la fonction CausalInferenceAnalysis (fenêtre Python)

Le script Python ci-dessous illustre l’utilisation de la fonction CausalInferenceAnalysis.

import arcpy
arcpy.stats.CausalInferenceAnalysis(
    in_features="crop_locations",
    outcome_field="corn_yield",
    exposure_field="fertilizer",
    confounding_variables="soil_type true;temperature false",
    out_features=r"CausalInference_corn_yield",
    ps_method="REGRESSION",
    balancing_method="MATCHING",
    enable_erf_popups="CREATE_POPUP",
    out_erf_table=r"erftable",
    target_outcomes=[],
    target_exposures=[],
    lower_exp_trim=0.01,
    upper_exp_trim=0.99,
    lower_ps_trim=0,
    upper_ps_trim=1,
    num_bins=None,
    scale=None,
    balance_type="MEAN",
    balance_threshold=0.1,
    bw_method="PLUG_IN",
    create_bootstrap_ci="CREATE_CI"
)
Exemple 2 de la fonction CausalInferenceAnalysis (script autonome)

Le script Python ci-dessous illustre l’utilisation de la fonction CausalInferenceAnalysis.

# Estimate the causal effect between fertilizer amount 
# and corn yield using soil type and temperature as
# confounding variables.

# Import required modules.
import arcpy

# Set the workspace.
arcpy.env.workspace = "c:/data/crops.gdb"

# Run Causal Inference Analysis tool with gradient boosting
# and inverse propensity score weighting.
try:
    arcpy.stats.CausalInferenceAnalysis(
        in_features="crop_locations",
        outcome_field="corn_yield",
        exposure_field="fertilizer",
        confounding_variables="soil_type true;temperature false",
        out_features=r"CausalInference_corn_yield",
        ps_method="GRADIENT_BOOSTING",
        balancing_method="WEIGHTING",
        enable_erf_popups="CREATE_POPUP",
        out_erf_table=r"erftable",
        target_outcomes=[],
        target_exposures=[],
        lower_exp_trim=0.01,
        upper_exp_trim=0.99,
        lower_ps_trim=0,
        upper_ps_trim=1,
        num_bins=None,
        scale=None,
        balance_type="MEAN",
        balance_threshold=0.1,
        bw_method="PLUG_IN",
        create_bootstrap_ci="CREATE_CI"
    )

except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())