Was ist Empirical Bayesian Kriging?

Empirical Bayesian Kriging (EBK) ist eine geostatistische Interpolationsmethode, mit der die schwierigsten Aspekte beim Erstellen eines gültigen Kriging-Modells automatisiert werden können. Bei anderen Kriging-Methoden in Geostatistical Analyst müssen Sie die Parameter manuell anpassen, um genaue Ergebnisse zu erhalten. EBK dagegen verwendet einen Prozess aus Teilmengengenerierung und Simulationen, um diese Parameter automatisch zu berechnen.

Empirical Bayesian Kriging unterscheidet sich auch von anderen Kriging-Methoden, da der beim Schätzen des zugrunde liegenden Semivariogramms entstandene Fehler berücksichtigt wird. Andere Kriging-Methoden berechnen das Semivariogramm aus bekannten Datenpositionen und verwenden dieses Semivariogramm zum Treffen von Vorhersagen an unbekannten Positionen. Bei diesem Prozess wird implizit vorausgesetzt, dass das geschätzte Semivariogramm das wahre Semivariogramm für die Interpolationsregion ist. Da bei anderen Kriging-Methoden die Unsicherheit bei der Semivariogramm-Schätzung nicht berücksichtigt wird, werden die Standardfehler der Vorhersage unterschätzt.

Empirical Bayesian Kriging ist im Geostatistical Wizard sowie als Geoverarbeitungswerkzeug verfügbar.

Vor- und Nachteile

Gegenüber anderen Interpolationsmethoden hat Empirical Bayesian Kriging eine Reihe von Vor- und Nachteilen.

Vorteile

  • Erfordert nur ein Minimum an interaktiver Modellierung.
  • Die Standardfehler der Vorhersage sind genauer als bei anderen Kriging-Methoden.
  • Ermöglicht genaue Vorhersagen für mäßig nichtstationäre Daten.
  • Für kleine Datasets genauer als andere Kriging-Methoden.

Nachteile

  • Bei Erhöhung der Anzahl der Eingabepunkte, der Größe der Teilmenge oder des Überlappungsfaktors verlängert sich die Verarbeitungszeit erheblich. Bei Anwendung einer Transformation verlängert sich die Verarbeitungszeit ebenfalls, insbesondere dann, wenn K-Bessel oder K-Bessel Detrended als Semivariogramm-Modelltyp ausgewählt wurde. Diese Parameter werden in den folgenden Abschnitten dieses Themas erläutert.
  • Die Verarbeitung erfolgt langsamer als bei anderen Kriging-Methoden, insbesondere bei Ausgaben in Raster.
  • CoKriging und anisotrope Korrekturen sind nicht verfügbar.
  • Die Transformation des Typs "Log Empirical" reagiert besonders empfindlich auf Ausreißer. Wenn Sie diese Transformation mit Daten, die Ausreißer enthalten, verwenden, dann könnten Sie Vorhersagen enthalten, die um Größenordnungen größer oder kleiner als die Werte Ihrer Eingabepunkte sind. Dieser Parameter wird weiter unten im Abschnitt "Transformationen" beschrieben.

Semivariogramm-Schätzung

Im Gegensatz zu anderen Kriging-Methoden (bei denen gewichtete kleinste Quadrate verwendet werden), werden die Semivariogramm-Parameter in EBK unter Verwendung der eingeschränkten maximalen Wahrscheinlichkeit (REstricted Maximum Likelihood, REML) geschätzt. Wegen der für die Berechnung geltenden Einschränkungen von REML für große Datasets werden die Eingabedaten zuerst in überlappende Teilmengen einer bestimmten Größe (standardmäßig 100 Punkte pro Teilmenge) aufgeteilt. In jeder Teilmenge werden die Semivariogramme wie folgt geschätzt:

  1. Anhand der Daten in der Teilmenge wird ein Semivariogramm geschätzt.
  2. Unter Verwendung dieses Semivariogramms als Modell werden an jeder der Eingabepositionen in der Teilmenge neue Daten bedingungslos simuliert.
  3. Anhand der simulierten Daten wird ein neues Semivariogramm geschätzt.
  4. Die Schritte 2 und 3 werden so oft wie angegeben wiederholt. Bei jeder Wiederholung wird das in Schritt 1 geschätzte Semivariogramm zum Simulieren neuer Daten an den Eingabepositionen verwendet, aus denen dann wiederum ein neues Semivariogramm geschätzt wird.

Bei diesem Prozess wird eine große Anzahl von Semivariogrammen für jede Teilmenge erstellt. Wenn diese zusammen dargestellt werden, ist das Ergebnis eine empirische Verteilung vieler Semivariogramme, die nach Dichte farblich abgestuft (geschummert) ist (je dunkler die blaue Farbe ist, desto mehr Semivariogramme verlaufen durch diese Region). Die empirischen Semivarianzen werden durch blaue Kreuze dargestellt. Zusätzlich wird der Medianwert der Verteilung mit einer durchgezogenen roten Linie dargestellt, und das 25. und 75. Perzentil werden mit gestrichelten roten Linien dargestellt (siehe unten).

Simulierte Semivariogramme
Simulierte Semivariogramme für eine Teilmenge.

Die Anzahl der simulierten Semivariogramme pro Teilmenge beträgt standardmäßig 100. Jedes dieser Semivariogramme ist eine Schätzung des wahren Semivariogramms für diese Teilmenge.

Für jede Vorhersageposition wird die Vorhersage unter Verwendung einer neuen Verteilung empirischer Semivariogramme berechnet, die durch Zusammenführen einzelner Semivariogramme aus den Semivariogramm-Verteilungen in der Nachbarschaft des Punktes generiert wird. Wenn zum Beispiel eine Vorhersageposition Nachbarn in drei Teilmengen hat (wie durch die Suchnachbarschaft angegeben), dann wird die Vorhersage unter Verwendung der simulierten Semivariogramme aus jeder dieser drei Teilmengen berechnet. Die Semivariogramme aus jeder Teilmenge werden nach der Anzahl der Nachbarn, die sie zur Vorhersage beitragen, gewichtet. Dadurch können Teilmengen, die mehr Nachbarn beitragen, mehr Einfluss auf den vorhergesagten Wert erhalten.

Wenn das Empirical Bayesian Kriging im Geostatistical Wizard durchgeführt wird, dann können Sie die Teilmengen sehen, die zum Berechnen des vorhergesagten Wertes verwendet wurden. In der folgenden Abbildung ist die Vorhersageposition der Mittelpunkt der Fadenkreuze auf der Vorschauoberfläche. Der kleine Kreis um die Fadenkreuze ist die Suchnachbarschaft, und die zwei großen, einander überlappenden Polygone zeigen die Punkte, die in den zwei Teilmengen, die zum Berechnen der Vorhersage verwendet wurden, enthalten sind. In diesem Beispiel sind Punkte in der Mitte der Karte in beiden Teilmengen enthalten. Diese Polygon-Visualisierungen können Sie mit der Schaltfläche, auf die der Pfeil zeigt, aktivieren und deaktivieren:

Vorhersage mit Teilmengen
Vorhersagen werden aus benachbarten Teilmengen generiert.

Kriging-Modell

Empirical Bayesian Kriging unterscheidet sich von anderen Kriging-Methoden in Geostatistical Analyst, da eine intrinsische Zufallsfunktion als Kriging-Modell verwendet wird.

Andere Kriging-Modelle setzen voraus, dass der Prozess einem Gesamtmittelwert (oder bestimmten Trend) mit einzelnen Variationen um diesen Mittelwert folgt. Da große Abweichungen in Richtung des Mittelwertes zurückgezogen werden, weichen die Werte nie zu weit ab. Da jedoch EBK keine Tendenz in Richtung eines Gesamtmittelwertes voraussetzt, werden große Abweichungen mit derselben Wahrscheinlichkeit noch größer oder aber kleiner. Damit berücksichtigen intrinsische Zufallsfunktionen von Natur aus Trends in den Daten.

Semivariogramm-Modell

Für eine gegebene Entfernung h unterstützt Empirical Bayesian Kriging die folgenden Semivariogramme:

  • Potenz
    • γ(h)= Nugget + b|h|α
  • Linear
    • γ(h)= Nugget + b|h|
  • Thin Plate Spline
    • γ(h)= Nugget + b|h2|*ln(|h|)

Nugget und b (Neigung) müssen positiv sein, und α (Potenz) muss zwischen 0,25 und 1,75 liegen. Unter diesen Rahmenbedingungen werden die Parameter unter Verwendung von REML geschätzt. Diese Semivariogramm-Modelle enthalten weder einen Bereichs- noch einen Schwellenwertparameter, da die Funktionen keine Obergrenze haben.

In EBK ist es möglich, die empirische Verteilung der Parameterschätzungen zu analysieren, da an jeder Position viele Semivariogramme geschätzt werden. Wenn Sie auf die Registerkarte Nugget, Neigung oder Potenz klicken, werden die Verteilungen der zugehörigen Parameter angezeigt. Die folgende Abbildung zeigt die Verteilungen der Semivariogramm-Parameter für die simulierten Semivariogramme, die in der vorherigen Abbildung dargestellt sind:

Verteilungen von Nugget, Neigung und Potenz.
Verteilungen von Nugget, Neigung und Potenz

Wenn Sie auf eine andere Position auf der Vorschauoberfläche klicken, werden die Semivariogramm-Verteilung und die Verteilungen der Semivariogramm-Parameter für die neue Position angezeigt. Wenn sich die Verteilungen in der Datendomäne nicht signifikant ändern, dann deutet dies darauf hin, dass die Daten global stationär sind. Die Verteilungen sollten sich in der Datendomäne gleichmäßig ändern. Wenn Sie jedoch große Änderungen in den Verteilungen über geringe Entfernungen sehen, dann können durch Erhöhen des Wertes für den Überlappungsfaktor die Übergänge der Verteilungen geglättet werden.

Hinweis:

Wie unten im Abschnitt "Transformationen" beschrieben, wird durch Anwenden einer Transformation das Kriging-Modell mit seiner intrinsischen Zufallsfunktion in ein einfaches Kriging-Modell verändert, wodurch mehrere zusätzliche Semivariogramm-Modelle verfügbar werden.

Transformationen

Empirical Bayesian Kriging bietet die Z-Transformation durch multiplikatives Verzerren mit der Auswahl zwischen zwei Basisverteilungen: empirisch (Empirical) und log-empirisch (Log Empirical). Bei der Transformation des Typs "Log Empirical" müssen alle Datenwerte positiv sein. Mit ihr wird garantiert, dass alle Vorhersagen positiv sind. Diese Methode eignet sich für Daten, die nicht negativ sein können, wie zum Beispiel Niederschlag.

Wenn eine Transformation angewendet wird, wird statt einer intrinsischen Zufallsfunktion ein einfaches Kriging-Modell verwendet. Wegen dieser Änderungen sind danach die Parameterverteilungen Nugget, Partial Sill und Bereich verfügbar.

Wenn K-Bessel oder K-Bessel Detrended als Semivariogrammtyp ausgewählt wurde, wird ein zusätzliches Diagramm für den Parameter Shape in K-Bessel angezeigt. Zusätzlich wird auch die Registerkarte Transformation mit der Verteilung der angepassten Transformationen (eine für jede Simulation) angezeigt. Wie bei der Registerkarte Semivariogramme wird die Verteilung der Transformationen nach Dichte farblich abgestuft, und es werden Quantil-Linien angezeigt.

Verteilungen von Nugget, Partial Sill, Bereich und Transformation.
Verteilungen von Nugget, Partial Sill, Bereich und Transformation

Semivariogramme

Alle geostatistischen Methoden setzen räumliche Autokorrelation voraus, bei der Dinge, die näher beieinander liegen, einander ähnlicher sind als Dinge, die weiter auseinander liegen, und das Semivariogramm definiert, wie diese Ähnlichkeit mit zunehmender Entfernung abnimmt. Einige Semivariogramme (zum Beispiel exponentielle Semivariogramme) setzen voraus, dass die Ähnlichkeit schnell abnimmt. Das Whittle-Semivariogramm-Modell setzt dagegen voraus, dass die Ähnlichkeit langsam abnimmt. Selbst bei identischen Einstellungen für Nugget, Bereich und Schwellenwert definieren diese zwei Semivariogramme eine sich abschwächende Ähnlichkeit sehr unterschiedlich. Der Schlüssel zum Erhalt zuverlässiger Ergebnisse ist die Auswahl des Semivariogramms, das dem Verhalten Ihres Phänomens am besten entspricht. Welche Semivariogramm-Modelle verfügbar sind, hängt von Ihrer Auswahl der Transformation ab.

Wenn die Transformation auf Keine festgelegt ist, sind die folgenden Semivariogramm-Modelle verfügbar:

  • Potenz (Standard)
  • Linear
  • Thin Plate Spline

Wenn die Transformation auf Empirical oder Log Empirical festgelegt ist, sind die folgenden Semivariogramm-Modelle verfügbar:

  • Exponentiell (Standard)
  • Exponential Detrended
  • Whittle
  • Whittle Detrended
  • K-Bessel
  • K-Bessel Detrended

Die drei Semivariogramm-Modelle mit Trendbereinigung ("Detrended") sind mit der Ausnahme, dass eine Trendbereinigung erster Ordnung angewendet wird, mit ihren Gegenstücken ohne Trendbereinigung identisch. Die Trendbereinigung hat eine vernachlässigbare Auswirkung auf die Geschwindigkeit der Berechnung.

Vor- und Nachteile der einzelnen Modelle

Jedes Semivariogramm hat Vor- und Nachteile. Beim Auswählen eines Semivariogramms sollten die Berechnungszeit und die Flexibilität des Modells (die Eignung für verschiedenste Datasets) berücksichtigt werden:

  • Potenz
    • Vorteile: Relativ schnell und flexibel. Generell eine sichere Wahl, die einen guten Kompromiss zwischen Performance und Genauigkeit darstellt.
    • Nachteile: Weniger flexibel und langsamer als andere Optionen.
  • Linear
    • Vorteile: Sehr schnell.
    • Nachteile: Das am wenigsten flexible Modell.
  • Thin Plate Spline
    • Vorteile: Sehr schnell. Funktioniert am besten, wenn starke Trends vorhanden sind.
    • Nachteile: Weniger flexibel, insbesondere dann, wenn kein Trend vorhanden ist.
  • Exponentiell
    • Vorteile: Ermöglicht eine flexible Transformation. Schneller als K-Bessel und K-Bessel Detrended.
    • Nachteile: Form des Semivariogramms ist nicht flexibel. Langsam im Vergleich zu Potenz, Linear und Thin Plate Spline.
  • Exponential Detrended
    • Vorteile: Ermöglicht eine flexible Transformation. Schneller als K-Bessel und K-Bessel Detrended. Entfernt Trend erster Ordnung.
    • Nachteile: Form des Semivariogramms ist nicht flexibel. Langsam im Vergleich zu Potenz, Linear und Thin Plate Spline.
  • Whittle
    • Vorteile: Ermöglicht eine flexible Transformation. Schneller als K-Bessel und K-Bessel Detrended.
    • Nachteile: Form des Semivariogramms ist nicht flexibel. Langsam im Vergleich zu Potenz, Linear und Thin Plate Spline.
  • Whittle Detrended
    • Vorteile: Ermöglicht eine flexible Transformation. Schneller als K-Bessel und K-Bessel Detrended. Entfernt Trend erster Ordnung.
    • Nachteile: Form des Semivariogramms ist nicht flexibel. Langsam im Vergleich zu Potenz, Linear und Thin Plate Spline.
  • K-Bessel
    • Vorteile: Am flexibelsten und genauesten.
    • Nachteile: Die längste Berechnungszeit.
  • K-Bessel Detrended
    • Vorteile: Am flexibelsten und genauesten. Entfernt Trend erster Ordnung.
    • Nachteile: Die längste Berechnungszeit.

Auswählen eines Semivariogramms

Die Auswahl des Semivariogramms sollte meistens anhand der folgenden Kriterien erfolgen:

  • Wenn Sie bereit sind, eine gewisse Wartezeit in Kauf zu nehmen, aber dafür die genauesten Ergebnisse zu erhalten, dann sollte K-Bessel oder K-Bessel Detrended ausgewählt werden. Welches ausgewählt wird, sollte anhand des Vorhandenseins oder Nichtvorhandenseins eines Trends entschieden werden.
  • Wenn Sie schnell Ergebnisse benötigen und bereit sind, auf etwas Genauigkeit zu verzichten, dann sollte Linear oder Thin Plate Spline ausgewählt werden. Wenn kein Trend vorhanden ist oder der Trend schwach ist, dann ist Linear eine bessere Wahl.
  • Wenn Sie Ausgewogenheit zwischen Genauigkeit und Geschwindigkeit benötigen, dann ist Potenz eine gute Wahl.
  • Wenn eine Transformation erforderlich ist, sie es sich aber nicht leisten können, lange auf die Ausgabe zu warten, dann sollte Exponentiell oder Whittle (oder deren Gegenstücke mit Trendbereinigung) ausgewählt werden. Im Geostatistical Wizard sollten Sie die Option wählen, die den empirischen Semivarianzen am besten entspricht (siehe unten). Kreuzvalidierung sollte auch in Betracht gezogen werden.

Wenn Sie versuchen, zwischen Exponentiell, Whittle und deren Gegenstücken mit Trendbereinigung zu wählen, dann sollten Sie das Semivariogramm auswählen, das visuell am besten zu den empirischen Semivarianzen (den blauen Kreuzen in den folgenden Grafiken) passt. Idealerweise sollten die empirischen Semivarianzen in der Mitte des Semivariogramm-Spektrums liegen. In der folgenden Grafik als Beispiel liegen die blauen Kreuze nicht in der Mitte des Semivariogramm-Spektrums (die meisten liegen über dem Spektrum):

Die empirischen Semivarianzen liegen nicht in der Mitte des Spektrums.
Die empirischen Semivarianzen liegen nicht in der Mitte des Spektrums.

Stattdessen sollte das folgende Semivariogramm bevorzugt werden, da die blauen Kreuze in der Mitte des Semivariogramm-Spektrums liegen:

Die empirischen Semivarianzen liegen in der Mitte des Spektrums.
Die empirischen Semivarianzen liegen in der Mitte des Spektrums.

Entfernungsberechnungen für Daten in geographischen Koordinaten

Wenn sich Ihre Eingabedaten in einem geographischen Koordinatensystem befinden, werden die Entfernungen anhand der Sehnenentfernung berechnet. Die Sehnenentfernung zwischen zwei Punkten entspricht der geradlinigen Entfernung zwischen diesen beiden Punkten. Diese Linie verläuft nicht entlang der Oberfläche der Erde, sondern durch die Erde. Um dies zu visualisieren, sollten Sie sich vorstellen, wie das Licht einer Taschenlampe durch eine transparente Kugel scheint. Die Länge des Lichtstrahls zwischen dem Punkt, an dem das Licht eintritt, und dem Punkt, an dem es die Kugel wieder verlässt, ist die Sehnenentfernung zwischen diesen zwei Punkten. Der Hauptvorteil bei der Verwendung der Sehnenentfernung gegenüber der geodätischen Entfernung besteht darin, dass sie weniger rechenintensiv ist. Außerdem liegt nur eine begrenzte Theorie zum Durchführen des Kriging auf Sphäroiden vor.

Hinweis:

Da Sehnenentfernungen keine guten Näherungen von geodätischen Entfernungen für Entfernungen über 30 Dezimalgrad sind, darf der Suchradius 15 Dezimalgrad (und damit der Durchmesser 30 Grad) nicht überschreiten. Bei der Berechnung einer Position, die innerhalb von 15 Dezimalgrad keinen Nachbarn hat, wird in diesem Fall das Ergebnis NoData ausgegeben. Darüber hinaus erfordern einige Semivariogramm-Modelle die Anpassung einer flachen Ebene an jede Teilmenge, damit eine Trendbereinigung durchgeführt werden kann. Da für Teilmengen, deren Ausdehnung 30 Dezimalgrad überschreitet, diese Ebene nicht genau genug erstellt werden kann, ist die Ausdehnung einzelner Teilmengen bei den folgenden Semivariogramm-Modellen auf 30 Grad beschränkt:

  • Thin Plate Spline
  • Exponential Detrended
  • Whittle Detrended
  • K-Bessel Detrended

In vorherigen Versionen von ArcGIS wurden geographische Koordinaten als Quadratkoordinaten behandelt. Zudem wurde die euklidische Entfernung zwischen Punkten berechnet. Da jedoch eine Zelle von 1 Grad mal 1 Grad eigentlich kein Quadrat ist, ist diese Entfernung verzerrt. Diese Verzerrung wird umso stärker, je weiter Sie sich vom Äquator nach Norden oder Süden entfernen.

Zusätzliche Parameter für Empirical Bayesian Kriging

Empirical Bayesian Kriging verwendet drei Parameter, die bei anderen Kriging-Methoden nicht vorhanden sind:

  • Maximale Anzahl Punkte in jedem lokalen Modell: Gibt die Anzahl der Punkte in jeder Teilmenge an. Je größer die Teilmengengröße ist, desto länger dauert die Berechnung mit EBK.
  • Faktor der Überlappung von Bereichen zwischen lokalen Modellen: Gibt den Grad der Überlappung zwischen Teilmengen an. Jeder Eingabepunkt kann mehreren Teilmengen angehören, und der Überlappungsfaktor gibt die durchschnittliche Anzahl von Teilmengen an, zu denen jeder Punkt gehört. Zum Beispiel bedeutet ein Überlappungsfaktor von 1,5, dass eine Hälfte der Punkte in einer Teilmenge und eine Hälfte in zwei Teilmengen verwendet wird. Mit einem höheren Wert für den Überlappungsfaktor wird die Ausgabe-Oberfläche mehr geglättet, aber auch die Verarbeitungszeit verlängert.
  • Anzahl simulierter Semivariogramme: Gibt die Anzahl der Semivariogramme an, die für jede Teilmenge simuliert werden sollen. Bei mehr Simulationen werden die Vorhersagen genauer, aber die Verarbeitungszeit nimmt auch zu.

Referenzen

  • Chilès, J-P., und P. Delfiner (1999). Kapitel 4 von Geostatistics: Modeling Spatial Uncertainty. New York: John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging", ArcUser Fall 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging", ArcUser Fall 2012.
  • Krivoruchko K. und Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data", Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, S. 61-64.
  • Krivoruchko K. und Gribov A. (2019). "Evaluation of empirical Bayesian kriging", Spatial Statistics Band 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz, J., und G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods", Stochastic Environmental Research and Risk Assessment 22 (5):621–632.