Qu’est-ce que le krigeage bayésien empirique ?

Le krigeage bayésien empirique (EBK) est une technique d’interpolation géostatistique qui automatise les aspects les plus difficiles de la création d’un modèle de krigeage valide. Dans Geostatistical Analyst, les autres méthodes de krigeage nécessitent l’ajustement manuel de paramètres pour l’obtention de résultats précis, mais la méthode EBK calcule automatiquement ces paramètres par un processus d’établissement de sous-groupes et de simulations.

Le krigeage bayésien empirique diffère également des autres méthodes de krigeage en ce sens qu’il tient compte de l’erreur introduite par l’estimation du semi-variogramme sous-jacent. Les autres méthodes de krigeage calculent le semi-variogramme à partir des localisations de données connues et utilisent ce seul semi-variogramme pour établir des prédictions à des localisations inconnues. Ce processus implique que le semi-variogramme estimé est le semi-variogramme réel pour la région d’interpolation. En faisant fi de l’incertitude de l’estimation du semi-variogramme, les autres méthodes de krigeage sous-estiment les erreurs standard de prédiction.

Le krigeage bayésien empirique est disponible dans l’assistant géostatistique et en tant qu’outil de géotraitement.

Avantages et inconvénients

Le krigeage bayésien empirique présente un grand nombre d’avantages et d’inconvénients par rapport aux autres méthodes d’interpolation.

Avantages

  • Modélisation interactive minimale requise.
  • Précision accrue des erreurs standard de prédiction par rapport aux autres méthodes de krigeage.
  • Prédictions plus précises des données modérément non stationnaires.
  • Précision accrue pour les petits jeux de données par rapport aux autres méthodes de krigeage.

Inconvénients

  • La durée de traitement augmente rapidement avec le nombre de points en entrée, la taille du sous-ensemble et le facteur de superposition. L’application d’une transformation entraîne également une augmentation de la durée de traitement, surtout si le type de modèle de semi-variogramme K de Bessel ou K de Bessel décomposé est utilisé. Ces paramètres sont décrits dans les sections suivantes de cette rubrique.‎
  • Le traitement est plus lent qu’avec les autres méthodes de krigeage, notamment lorsque vous générez des rasters en sortie.
  • Le co-krigeage et les corrections anisotropes ne sont pas disponibles.
  • La transformation Logarithmique empirique est particulièrement sensible aux points aberrants. Si vous utilisez ce type de transformation avec des données qui contiennent des points aberrants, vos prédictions présenteront des ordres de grandeur supérieurs ou inférieurs aux valeurs de vos points en entrée. Ce paramètre est décrit dans la section Transformations ci-dessous.

Estimation du semi-variogramme

Contrairement aux autres méthodes de krigeage (qui utilisent des moindres carrés pondérés), avec la méthode EBK, les paramètres de semi-variogramme sont estimés à l’aide du maximum de vraisemblance restreint (REML - Restricted Maximum Likelihood). Vu les limites de calcul du REML pour des jeux de données importants, les données en entrée sont d’abord divisées en sous-ensembles superposés d’une taille spécifique (valeur par défaut de 100 points par sous-ensemble). Dans chaque sous-ensemble, les semi-variogrammes sont estimés comme suit :

  1. Un semi-variogramme est estimé à partir des données du sous-ensemble.
  2. En prenant ce semi-variogramme comme modèle, les nouvelles données sont simulées de manière non conditionnelle à chaque localisation en entrée du sous-ensemble.
  3. Un nouveau semi-variogramme est estimé à partir des données simulées.
  4. Les étapes 2 et 3 sont renouvelées un certain nombre de fois. À chaque répétition, le semi-variogramme estimé à l’étape 1 permet de simuler un nouveau jeu de données aux localisations en entrée et les données simulées permettent d’estimer un nouveau semi-variogramme

Ce processus génère un nombre important de semi-variogrammes pour chaque sous-ensemble. Lorsque ces derniers sont tracés ensemble, il en résulte une distribution empirique de semi-variogrammes ombrés en fonction de la densité (plus la couleur bleue est foncée, plus le nombre de semi-variogrammes traversant cette région est élevé). Les semi-variances empiriques sont représentées par des croix bleues. En outre, la médiane de la distribution est représentée par une ligne rouge continue et les 25e et 75e centiles apparaissent sous la forme de lignes rouges en pointillés, comme l’indique l’illustration ci-dessous.

Semi-variogrammes simulés
Les semi-variogrammes simulés s’affichent pour un sous-ensemble.

Le nombre de semi-variogrammes simulés par sous-ensemble s’élève par défaut à 100 et chacun de ces semi-variogrammes est une estimation du semi-variogramme réel pour le sous-ensemble.

Pour chaque localisation de prédiction, la prédiction est calculée à l’aide d’une nouvelle distribution empirique de semi-variogrammes générée en fusionnant des semi-variogrammes individuels prélevés à partir des distributions de semi-variogrammes dans le voisinage du point. Si, par exemple, la localisation de prédiction a des voisins dans trois sous-ensembles différents (comme l’indique le voisinage de recherche), la prédiction est calculée à l’aide de semi-variogrammes simulés provenant de chacun des trois sous-ensembles. Les semi-variogrammes de chaque sous-ensemble sont pondérés par le nombre de voisins contribuant à la prédiction. Cela assure que les sous-ensembles fournissant des voisins ont plus d’influence sur la valeur prédite.

Lorsque le krigeage bayésien empirique est effectué dans l’assistant géostatistique, vous êtes en mesure de voir les sous-ensembles utilisés pour déterminer la valeur prédite. Dans l’image ci-dessous, la localisation de la prédiction se trouve au centre du réticule dans la surface d’aperçu. Le petit cercle entourant le réticule représente le voisinage de recherche et les deux grands polygones superposés montrent les points contenus dans les deux sous-ensembles qui ont été utilisés pour établir la prédiction. Dans cet exemple, les points au milieu de la carte sont inclus dans les deux sous-ensembles. Vous pouvez activer ou désactiver la visualisation de ces polygones grâce au bouton indiqué par la flèche :

Prédiction avec sous-ensembles
Les prédictions sont générées à partir des sous-ensembles du voisinage.

Modèle de krigeage

Dans Geostatistical Analyst, le krigeage bayésien empirique diffère des autres méthodes de krigeage, car il utilise une fonction aléatoire intrinsèque comme modèle de krigeage.

Les autres modèles de krigeage supposent que le processus suit une moyenne générale (ou tendance spécifiée) avec des variations individuelles autour de cette moyenne. Les écarts importants sont rapprochés de la moyenne pour que l’écart des valeurs ne soit jamais trop important. La méthode EBK ne considère pas une tendance vers une moyenne générale. Ainsi, les écarts importants sont tout aussi susceptibles d’augmenter que de diminuer. Par conséquent, les fonctions aléatoires intrinsèques corrigent les tendances que présentent les données.

Modèle de semi-variogramme

Pour une distance donnée h, le krigeage bayésien empirique prend en charge les semi-variogrammes suivants :

  • Puissance
    • γ(h)= Pépite + b|h|α
  • Linéaire
    • γ(h)= Pépite + b|h|
  • Spline de plaque mince
    • γ(h)= Pépite + b|h2|*ln(|h|)

La pépite b (pente) doit être positive et α (puissance) doit être comprise entre 0,25 e 1,75. Conformément à ces restrictions, les paramètres sont estimés à l’aide du REML. Ces modèles de semi-variogrammes ne présentent pas de paramètre de portée ou de seuil partiel, car les fonctions n’ont pas de limite supérieure.

Le krigeage bayésien empirique permet d’analyser la distribution empirique des estimations de paramètres, car de nombreux semi-variogrammes sont estimés à chaque localisation. En cliquant sur l’onglet Pépite, Pente ou Puissance, vous affichez les distributions des paramètres associés. Le graphique suivant illustre les distributions des paramètres de semi-variogrammes pour les semi-variogrammes simulés illustrés dans le graphique précédent :

Les distributions relative à la pépite, à la pente et à la puissance sont affichées.
Distributions de pépite, pente et puissance

En cliquant sur une localisation différente de la surface d’aperçu, la distribution des semi-variogrammes et les distributions des paramètres de semi-variogrammes sont indiquées pour la nouvelle localisation. Si les distributions ne changent pas considérablement à travers le domaine de données, on peut supposer que les données sont globalement stationnaires. Les distributions devraient varier progressivement à travers le domaine de données. Toutefois, si vous constatez des changements considérables dans les distributions sur de petites distances, vous pouvez augmenter la valeur Facteur de superposition pour lisser les transitions des distributions.

Remarque :

Comme cela est décrit dans la section Transformations ci-dessous, l’application d’une transformation convertit le modèle de krigeage d’une fonction aléatoire intrinsèque en un modèle de krigeage simple. Plusieurs modèles de semi-variogrammes supplémentaires sont alors disponibles.

Transformations

Le krigeage bayésien empirique propose la méthode d’approximation d’inclinaison multiplicative pour la transformation du score normal et deux options de distribution de base : Empirique et Logarithmique empirique. La transformation Logarithmique empirique exige que toutes les valeurs de données soient positives et garantit que toutes les prédictions sont positives. Ce type de transformation est adapté aux données concernant les précipitations, par exemple, lesquelles ne peuvent pas être négatives.

Si une transformation est appliquée, un modèle de krigeage simple est utilisé à la place d’une fonction aléatoire intrinsèque. En raison de ces changements, les distributions des paramètres prennent les valeurs Pépite, Seuil partiel et Portée.

Si vous sélectionnez K de Bessel ou K de Bessel décomposé comme valeur de l’option Type de semi-variogramme, un graphique supplémentaire apparaît pour le paramètre Forme avec K de Bessel. Un onglet Transformation supplémentaire apparaît également et affiche la distribution des transformations ajustées (une pour chaque simulation). Comme c’est le cas pour l’onglet Semi-variogrammes, la distribution des transformations est colorée en fonction de la densité et des lignes de quantiles sont affichées.

Les distributions de pépite, de seuil partiel, de portée et de transformation sont affichées.
Distributions de pépite, de seuil partiel, de portée et de transformation

Semi-variogrammes

Toutes les méthodes géostatistiques supposent une auto-corrélation spatiale, c’est-à-dire que les objets les plus rapprochés sont plus semblables que les objets séparés par une distance supérieure et le semi-variogramme définit comment cette similarité diminue avec la distance. Certains semi-variogrammes (de type exponentiel, par exemple) supposent que la similarité se dissipe rapidement. En revanche, le modèle de semi-variogramme Whittle, suppose que la similarité se dissipe lentement. Même avec des pépite, portée et seuil identiques, ces deux semi-variogrammes définiront une similarité décroissante de façons totalement différentes. Pour obtenir des résultats fiables, il convient de choisir le semi-variogramme qui correspond le mieux au comportement de votre phénomène. Les modèles de semi-variogrammes disponibles varient selon le type de transformation choisi.

Si la valeur définie pour Transformation est Aucune, les modèles suivants de semi-variogrammes sont disponibles :

  • Puissance (valeur par défaut)
  • Linéaire
  • Spline de plaque mince

Si la valeur définie pour Transformation est Empirique ou Logarithmique empirique, les modèles suivants de semi-variogrammes sont disponibles :

  • Exponentiel (valeur par défaut)
  • Exponentiel décomposé
  • Whittle
  • Whittle décomposé
  • K de Bessel
  • K de Bessel décomposé

Les trois modèles de semi-variogrammes décomposés sont identiques à leurs équivalents non décomposés, à l’exception du fait qu’une tendance de premier ordre est supprimée. La suppression d’une tendance a un effet minime sur la vitesse de calcul.

Avantages et inconvénients de chaque modèle

Chaque semi-variogramme présente des avantages et des inconvénients. Lorsque vous choisissez un semi-variogramme, vous devez tenir compte de la durée de calcul et de la souplesse du modèle (capacité à prendre en charge une plage variée de jeux de données) :

  • Puissance
    • Avantages : relativement rapide et souple. C’est un choix sûr qui assure un bon équilibre entre les performances et la précision.
    • Inconvénients : moins souple et plus lent que les autres choix.
  • Linéaire
    • Avantages : très rapide.
    • Inconvénients : modèle le moins souple.
  • Spline de plaque mince
    • Avantages : très rapide. Fonctionne mieux en présence de fortes tendances.
    • Inconvénients : moins souple, surtout en l’absence de tendance.
  • Exponentiel
    • Avantages : garantit une transformation souple. Plus rapide que les méthodes K de Bessel et K de Bessel décomposé.
    • Inconvénients : manque de flexibilité de la forme du semi-variogramme. Lent par rapport aux modèles Puissance, Linéaire et Spline de plaque mince.
  • Exponentiel décomposé
    • Avantages : garantit une transformation souple. Plus rapide que les méthodes K de Bessel et K de Bessel décomposé. Supprime la tendance de premier ordre.
    • Inconvénients : manque de flexibilité de la forme du semi-variogramme. Lent par rapport aux modèles Puissance, Linéaire et Spline de plaque mince.
  • Whittle
    • Avantages : garantit une transformation souple. Plus rapide que les méthodes K de Bessel et K de Bessel décomposé.
    • Inconvénients : manque de flexibilité de la forme du semi-variogramme. Lent par rapport aux modèles Puissance, Linéaire et Spline de plaque mince.
  • Whittle décomposé
    • Avantages : garantit une transformation souple. Plus rapide que les méthodes K de Bessel et K de Bessel décomposé. Supprime la tendance de premier ordre.
    • Inconvénients : manque de flexibilité de la forme du semi-variogramme. Lent par rapport aux modèles Puissance, Linéaire et Spline de plaque mince.
  • K de Bessel
    • Avantages : modèle le plus souple et le plus précis.
    • Inconvénients : durée de calcul la plus longue.
  • K de Bessel décomposé
    • Avantages : modèle le plus souple et le plus précis. Supprime la tendance de premier ordre.
    • Inconvénients : durée de calcul la plus longue.

Choix d’un semi-variogramme

Le choix d’un semi-variogramme devrait reposer sur l’un des critères suivants :

  • Si vous avez le temps d’attendre pour obtenir des résultats précis, choisissez la méthode K de Bessel ou K de Bessel décomposé. C’est la présence ou l’absence de tendance qui déterminera votre choix.
  • Si vous souhaitez obtenir rapidement vos résultats pour un degré de précision moindre, choisissez la méthode Linéaire ou Spline de plaque mince. En l’absence de tendance ou si la tendance est faible, choisissez la méthode Linéaire.
  • La méthode Puissance propose un bon compromis entre la précision et la vitesse.
  • Si une transformation est nécessaire, mais que vous n’avez pas le temps d’attendre trop longtemps la génération de la sortie, choisissez la méthode Exponentiel ou Whittle (ou les équivalents décomposés). Choisissez la méthode qui correspond le mieux aux semi-variances empiriques de l’assistant géostatistique (description ci-dessous). La validation croisée doit également être prise en compte.

Si vous devez faire un choix entre les méthodes Exponentiel, Whittle et leurs équivalents décomposés, choisissez le semi-variogramme le mieux adapté aux semi-variances empiriques, d’un point de vue visuel (les croix bleues dans le graphique ci-dessous). Dans l’idéal, les semi-variances empiriques doivent se trouver au milieu du spectre de semi-variogrammes. Par exemple, dans le graphique suivant, les croix bleues ne se trouvent pas au milieu du spectre de semi-variogrammes (la plupart d’entre elles se trouvent dans la partie supérieure) :

Les semi-variances empiriques ne figurent pas au milieu du spectre.
Les semi-variances empiriques ne figurent pas au milieu du spectre.

En revanche, le semi-variogramme suivant est préférable car les croix bleues se trouvent au milieu du spectre de semi-variogrammes :

Les semi-variances empiriques figurent au milieu du spectre.
Les semi-variances empiriques figurent au milieu du spectre.

Calculs de distance pour les données de coordonnées géographiques

Si vos données en entrée se trouvent dans un système de coordonnées géographiques, les distances seront calculées à l’aide d’une distance de corde. La distance de corde entre deux points est la distance en ligne droite qui relie les deux points. Cette ligne traverse la terre plutôt que d’en parcourir la surface. Pour vous représenter cette ligne, imaginez les rayons d’une lampe torche à travers une sphère transparente. La longueur du faisceau de lumière entre le point d’entrée de la lumière et le point de sortie de la sphère est la distance de corde entre ces deux points. L’avantage principal que présente l’utilisation d’une distance de corde sur une distance géodésique est qu’elle sollicite moins de ressources de calcul. En outre, les connaissances théoriques concernant le krigeage sur des sphéroïdes sont limitées.

Remarque :

Puisque les distances de corde ne produisent pas d’approximations satisfaisantes des distances géodésiques pour les distances excédant 30 degrés décimaux, le rayon de recherche ne peut pas dépasser 15 degrés décimaux (et le diamètre ne peut donc pas dépasser 30 degrés). Toute localisation dépourvue de voisin dans les 15 degrés décimaux aura donc une valeur NoData dans les calculs. Certains modèles de semi-variogrammes nécessitent également l’ajustement d’une surface plane pour procéder à la suppression des tendances. Il est impossible de créer cette surface avec précision pour les sous-ensembles dont l’étendue dépasse 30 degrés décimaux. Ainsi, l’étendue de sous-ensembles individuels est limitée à 30 degrés pour les modèles de semi-variogrammes suivants :

  • Spline de plaque mince
  • Exponentiel décomposé
  • Whittle décomposé
  • K de Bessel décomposé

Les versions précédentes d’ArcGIS traitaient les coordonnées géographiques comme les coordonnées d’un carré et calculaient la distance euclidienne entre les points. Toutefois, une cellule d’un degré sur un degré n’est pas un carré, ce qui produit une distance déformée. Cette distorsion s’aggrave au fur et à mesure que vous vous éloignez de l’équateur, vers le nord ou le sud.

Paramètres supplémentaires pour le krigeage bayésien empirique

Le krigeage bayésien empirique fait appel à trois paramètres non disponibles dans les autres méthodes de krigeage :

  • Nombre maximal de points dans chaque modèle local : spécifie le nombre de points dans chaque sous-ensemble. Plus la taille du sous-ensemble est importante, plus la durée de calcul du krigeage bayésien empirique sera longue.
  • Facteur de superposition de surface du modèle local : spécifie le degré de superposition entre les sous-ensembles. Chaque point en entrée peut être compris dans plusieurs sous-ensembles. Le facteur de superposition indique le nombre moyen des sous-ensembles dans lesquels chaque point sera compris. Par exemple, un facteur de superposition de 1,5 implique qu’environ la moitié des points sera utilisée dans un sous-ensemble et l’autre moitié dans deux sous-ensembles. Plus le facteur de superposition est élevé et plus la surface en sortie est lisse, mais la durée de traitement est également plus longue.
  • Nombre de semi-variogrammes simulés : spécifie le nombre de semi-variogrammes simulés pour chaque sous-ensemble. L’augmentation du nombre de simulations contribue à une précision accrue des prédictions, mais la durée de traitement est également plus longue.

Bibliographie

  • Chilès, J-P. et P. Delfiner (1999). Chapitre 4 de Geostatistics: Modeling Spatial Uncertainty. New York : John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). « Empirical Bayesian Kriging », ArcUser Fall 2012.
  • Krivoruchko K. (2012). « Modeling Contamination Using Empirical Bayesian Kriging », ArcUser Fall 2012.
  • Krivoruchko K. and Gribov A. (2014). « Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data », Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, pp. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz, J. et G. Spöck (2007). « Why Do We Need and How Should We Implement Bayesian Kriging Methods », Stochastic Environmental Research and Risk Assessment 22 (5):621–632.