Empiryczny kriging bayesowski (EKB) to metoda interpolacji geostatystycznej, która automatyzuje najtrudniejsze aspekty tworzenia prawidłowego modelu krigingu. Inne metody krigingu w narzędziu Geostatistical Analyst wymagają ręcznego korygowania parametrów w celu uzyskania dokładnych wyników, natomiast EKB automatycznie oblicza te parametry w procesie tworzenia podzbiorów i wykonywania symulacji.
Empiryczny kriging bayesowski różni się także od innych metod krigingu tym, że uwzględnia błąd powodowany przez szacowanie bazowego semiwariogramu. W innych metodach krigingu semiwariogram jest obliczany na podstawie znanych lokalizacji danych i ten sam semiwariogram jest używany do prognozowania w nieznanych lokalizacjach; w tym procesie niejawnie przyjmuje się, że oszacowany semiwariogram jest prawdziwy dla regionu interpolacji. Przez to, że inne metody krigingu nie uwzględniają niepewności oszacowania semiwariogramu, nie doszacowują standardowych błędów prognozy.
Empiryczny kriging bayesowski jest narzędziem geoprzetwarzania dostępnym w kreatorze Geostatistical Wizard.
Zalety i wady
Empiryczny kriging bayesowski ma szereg zalet i wad w porównaniu do innych metod interpolacji.
Korzyści
- Wymaga minimalnego modelowania interaktywnego.
- Standardowe błędy prognozy są dokładniejsze niż w innych metodach krigingu.
- Umożliwia dokładne prognozowanie umiarkowanie niestacjonarnych danych.
- Jest dokładniejszy niż inne metody krigingu w przypadku małych zestawów danych.
Wady
- Czas przetwarzania gwałtownie rośnie wraz ze zwiększaniem się liczby punktów wejściowych, rozmiaru podzbioru lub współczynnika nakładania się. Zastosowanie transformacji również zwiększa czas przetwarzania, szczególnie jeśli jako typ modelu semiwariogramu zostanie wybrany K Bessela lub K Bessela z eliminacją trendów. Parametry te są opisane w kolejnych sekcjach tego tematu.
- Przetwarzanie jest wolniejsze niż w innych metodach krigingu, zwłaszcza w przypadku, gdy danymi wynikowymi jest raster.
- Kokriging i poprawki anizotropowe są niedostępne.
- Logarytmiczna transformacja empiryczna jest szczególnie wrażliwa na elementy odstające. Jeśli transformacja ta zostanie użyta z danymi zawierającymi elementy odstające, mogą zostać wygenerowane prognozy kilka rzędów wielkości większe lub mniejsze od wartości w punktach wejściowych. Ten parametr jest opisany w poniższej sekcji Transformacje.
Oszacowanie semiwariogramu
W przeciwieństwie do innych metod krigingu, w których stosowana jest metoda ważonych najmniejszych kwadratów, parametry semiwariogramu w EKB są szacowane metodą ograniczonego maksymalnego prawdopodobieństwa (REML). Ze względu na ograniczenia obliczeniowe w REML w przypadku dużych zestawów danych dane wejściowe są najpierw dzielone na nakładające się podzbiory o określonej wielkości (domyślnie jest to 100 punktów na podzbiór). W każdym podzbiorze semiwariogramy są szacowane w następujący sposób:
- Semiwariogram jest szacowany na podstawie danych w podzbiorze.
- Za pomocą tego semiwariogramu jako modelu nowe dane są bezwarunkowo symulowane w każdej z lokalizacji wejściowych w podzbiorze.
- Nowy semiwariogram jest szacowany na podstawie danych symulowanych.
- Etapy 2 i 3 są powtarzane określoną liczbę razy. W każdym powtórzeniu semiwariogram oszacowany w etapie 1 jest używany do symulowania nowego zestawu danych w lokalizacjach wejściowych, a symulowane dane są używane do szacowania nowego semiwariogramu.
Proces ten powoduje utworzenie dużej liczby semiwariogramów dla każdego podzbioru, a gdy są one wyświetlane razem, wynikiem jest empiryczny rozkład semiwariogramów, które są cieniowane według gęstości (im ciemniejszy jest odcień koloru niebieskiego, tym więcej semiwariogramów przechodzi przez dany region). Empiryczne semiwariancje są reprezentowane przez niebieskie krzyżyki. Dodatkowo mediana rozkładu jest wyświetlana za pomocą ciągłej czerwonej linii, a centyle 25. i 75. są wyświetlane za pomocą czerwonych linii przerywanych, jak pokazano poniżej.
Domyślna liczba symulowanych semiwariogramów na podzbiór to 100, a każdy z tych semiwariogramów jest estymacją prawdziwego semiwariogramu dla podzbioru.
Dla każdej lokalizacji prognozy prognoza jest obliczana przy użyciu empirycznego rozkładu semiwariogramów, który jest generowany przez połączenie poszczególnych semiwariogramów z rozkładów semiwariogramów w sąsiedztwie punktu. Jeśli na przykład lokalizacja prognozy ma sąsiadów w trzech podzbiorach (określonych przez sąsiedztwo wyszukiwania), prognoza jest obliczana na podstawie symulowanych semiwariogramów z każdego z tych trzech podzbiorów. Semiwariogramy z każdego podzbioru są ważone według liczby sąsiadów wnoszących swój wkład do prognozy. Dzięki temu podzbiory wnoszące większą liczbę sąsiadów mają większy wpływ na prognozowaną wartość.
Podczas wykonywania empirycznego krigingu bayesowskiego w kreatorze Geostatistical Wizard widoczne są podzbiory, które były używane do obliczania prognozowanej wartości. Na poniższej ilustracji lokalizacją prognozy jest środek celownika na powierzchni podglądu. Mały okrąg wokół celownika to sąsiedztwo wyszukiwania, a dwa duże, nakładające się poligony pokazują punkty zawarte w dwóch podzbiorach, które były używane do obliczania prognozy. W tym przykładzie punkty w środku mapy są zawarte w obu podzbiorach. Przycisk wskazywany przez strzałkę pozwala włączać i wyłączać wizualizacje tych poligonów:
Model krigingu
Empiryczny kriging bayesowski różni się od innych metod krigingu w rozszerzeniu Geostatistical Analyst użyciem rzeczywistej funkcji losowej jako modelu krigingu.
W innych modelach krigingu przyjmuje się, że proces podąża za ogólną wartością średnią (lub określonym trendem) z indywidualnymi odchyleniami wokół tej wartości średniej. Duże odchylenia są przyciągane z powrotem w kierunku wartości średniej, dlatego wartości nigdy nie odchylają się zbyt daleko. Jednak w EKB nie przyjmuje się tendencji w kierunku wartości średniej i duże odchylenia mogą z równym prawdopodobieństwem stawać się coraz większe bądź coraz mniejsze. Z tego względu rzeczywiste funkcje losowe z natury korygują trendy w danych.
Model semiwariogramu
Dla danej odległości h empiryczny kriging bayesowski obsługuje następujące semiwariogramy:
- Potęga
- γ(h)= nugget + b|h|α
- Liniowy
- γ(h)= nugget + b|h|
- Wygładzanie minimalnego zakrzywienia
- γ(h)= nugget + b|h2|*ln(|h|)
Parametry nugget i b (spadek) muszą być dodatnie, natomiast α (potęga) musi mieć wartość z zakresu od 0,25 do 1,75. Przy tych ograniczeniach, parametry są szacowane metodą REML. Te modele semiwariogramu nie mają parametrów range (zakres) ani sill (próg), ponieważ te funkcje nie mają ograniczenia górnego.
W EKB możliwe jest analizowanie empirycznego rozkładu szacunkowych wartości parametrów, ponieważ w każdej lokalizacji szacowanych jest wiele semiwariogramów. Kliknięcie karty Nugget, Spadek lub Potęga powoduje wyświetlenie rozkładów powiązanych parametrów. Na poniższej ilustracji przedstawione są rozkłady parametrów semiwariogramów dla symulowanych semiwariogramów przedstawionych na poprzedniej ilustracji:
Kliknięcie innej lokalizacji na powierzchni podglądu powoduje wyświetlenie rozkładu semiwariogramu i rozkładów parametrów semiwariogramów dla nowej lokalizacji. Jeśli rozkłady nie zmieniają się znacząco w obrębie domeny danych, sugeruje to, że dane są globalnie stacjonarne. Rozkłady powinny zmieniać się łagodnie w obrębie domeny danych, jeśli jednak widoczne są duże zmiany rozkładów na małych odległościach, zwiększenie wartości parametru Współczynnik nakładania może wygładzić przejścia rozkładów.
Notatka:
Jak opisano poniżej w sekcji Transformacje, zastosowanie transformacji zmienia model krigingu z rzeczywistej funkcji losowej na prosty model krigingu i dostępnych staje się kilka dodatkowych modeli semiwariogramów.
Transformacje
Empiryczny kriging bayesowski oferuje transformację normalnego wyniku z użyciem mechanizmu multiplikatywnej skośności z możliwością wyboru dwóch podstawowych rozkładów: empirycznego i logarytmicznego empirycznego. Logarytmiczna transformacja empiryczna wymaga, aby wszystkie wartości danych były dodatnie i gwarantuje, że wszystkie prognozy będą dodatnie. Jest to odpowiednie w przypadku takich danych, jak dotyczące opadów deszczu, które nie mogą być ujemne.
Jeśli zastosowana zostanie transformacja, zamiast modelu wewnętrznej funkcji losowej używany jest model prostego krigingu. Ze względu na te zmiany, rozkłady parametrów zmieniają się na Nugget, Częściowa semiwariancja progowa i Zakres.
Jeśli jako Typ semiwariogramu zostanie wybrany K Bessela lub K Bessela z eliminacją trendów zostanie wyświetlony dodatkowy wykres dla parametru Kształt w K Bessela. Pojawi się także dodatkowa karta Transformacja, na której wyświetlany jest rozkład dopasowanych transformacji (po jednej dla każdej symulacji). Podobnie jak w przypadku karty Semiwariogramy kolor rozkładu transformacji zależy od gęstości i widoczne są linie kwantyli.
Semiwariogramy
We wszystkich metodach geostatystycznych przyjmuje się autokorelację przestrzenną, w której bliższe rzeczy są bardziej podobne niż znajdujące się dalej i semiwariogram definiuje, jak to podobieństwo zmniejsza się z odległością. W niektórych semiwariogramach (na przykład wykładniczym) przyjmuje się, że podobieństwo zmniejsza się szybko. W modelu semiwariogramu Whittle przyjmuje się z kolei, że podobieństwo zmniejsza się powoli. Nawet przy tych samych wartościach parametrów nugget, zakres i próg te dwa semiwariogramy zdefiniują malejące podobieństwo na zupełnie różne sposoby. Najważniejszy dla uzyskania wiarygodnych wyników jest wybór semiwariogramu, którego zachowanie jest najbliższe badanemu zjawisku. Dostępne modele semiwariogramów zależą od wybranej transformacji.
Jeśli opcja Transformacja jest skonfigurowana na Brak, dostępne są następujące modele semiwariogramów:
- Potęgowy (domyślny)
- Liniowy
- Wygładzanie minimalnego zakrzywienia
Jeśli opcja Transformacja jest skonfigurowana na Empiryczna lub Logarytmiczna empiryczna, dostępne są następujące modele semiwariogramów:
- Wykładniczy (domyślny)
- Wykładniczy z eliminacją trendów
- Whittle
- Whittle z eliminacją trendów
- K Bessela
- K Bessela z eliminacją trendów
Trzy modele semiwariogramów z eliminacją trendów są takie same jak ich odpowiedniki bez eliminacji trendów, z tym wyjątkiem, że stosowane jest usuwanie trendu pierwszego rzędu. Usunięcie trendu ma zaniedbywalny wpływ na szybkość obliczeń.
Zalety i wady poszczególnych modeli
Każdy semiwariogram ma zalety i wady. Podczas wybierania semiwariogramu należy wziąć pod uwagę czas obliczeń i elastyczność modelu (możliwość dokładnego dopasowania do szerokiego zakresu zestawów danych):
- Potęga
- Zalety: stosunkowo szybki i elastyczny. Jest to zwykle bezpieczne rozwiązanie, które równoważy wydajność i dokładność.
- Wady: mniej elastyczny i wolniejszy niż inne.
- Liniowy
- Zalety: bardzo szybki.
- Wady: najmniej elastyczny model.
- Wygładzanie minimalnego zakrzywienia
- Zalety: bardzo szybki. Działa najlepiej, gdy występują silne trendy.
- Wady: mniej elastyczny, zwłaszcza przy braku trendów.
- Wykładniczy
- Zalety: oferuje elastyczną transformację. Szybszy niż K Bessela i K Bessela z eliminacją trendów.
- Wady: kształt semiwariogramu nie jest elastyczny. Wolny w porównaniu z potęgowym, liniowym i wygładzaniem minimalnego zakrzywienia.
- Wykładniczy z eliminacją trendów
- Zalety: oferuje elastyczną transformację. Szybszy niż K Bessela i K Bessela z eliminacją trendów. Usuwa trend pierwszego rzędu.
- Wady: kształt semiwariogramu nie jest elastyczny. Wolny w porównaniu z potęgowym, liniowym i wygładzaniem minimalnego zakrzywienia.
- Whittle
- Zalety: oferuje elastyczną transformację. Szybszy niż K Bessela i K Bessela z eliminacją trendów.
- Wady: kształt semiwariogramu nie jest elastyczny. Wolny w porównaniu z potęgowym, liniowym i wygładzaniem minimalnego zakrzywienia.
- Whittle z eliminacją trendów
- Zalety: oferuje elastyczną transformację. Szybszy niż K Bessela i K Bessela z eliminacją trendów. Usuwa trend pierwszego rzędu.
- Wady: kształt semiwariogramu nie jest elastyczny. Wolny w porównaniu z potęgowym, liniowym i wygładzaniem minimalnego zakrzywienia.
- K Bessela
- Zalety: najbardziej elastyczny i dokładny.
- Wady: najdłuższy czas obliczeń.
- K Bessela z eliminacją trendów
- Zalety: najbardziej elastyczny i dokładny. Usuwa trend pierwszego rzędu.
- Wady: najdłuższy czas obliczeń.
Wybór semiwariogramu
Wybór semiwariogramu powinien być jasny w większości przypadków w oparciu o następujące kryteria:
- Jeśli można zaczekać, aby uzyskać najdokładniejsze wyniki, należy wybrać semiwariogram K Bessela lub K Bessela z eliminacją trendów. O tym, który z nich wybrać, powinna decydować obecność lub nieobecność trendu.
- Jeśli wyniki potrzebne są szybko i można zgodzić się na pewną niedokładność, należy wybrać semiwariogram liniowy lub wygładzanie minimalnego zakrzywienia. Jeśli nie ma trendu lub jest słaby, lepszym wyborem jest semiwariogram liniowy.
- Jeśli potrzebna jest równowaga między dokładnością a szybkością, dobrym wyborem jest semiwariogram potęgowy.
- Jeśli wymagana jest transformacja, ale nie można pozwolić sobie na długi czas oczekiwania na wynik, należy wybrać semiwariogram wykładniczy lub Whittle (bądź ich odpowiedniki z eliminacją trendów). Należy wybrać najlepiej pasujący do empirycznych semiwariancji w kreatorze Geostatistical Wizard (opisanym poniżej). Należy również wziąć pod uwagę weryfikację krzyżową.
Próbując dokonać wyboru między semiwariogramem wykładniczym, Whittle oraz ich odpowiednikami z eliminacją trendów, należy wybrać ten, który zapewnia najlepsze dopasowanie wizualne do semiwariancji empirycznych (niebieskie krzyżyki na ilustracji poniżej). W sytuacji idealnej semiwariancje empiryczne powinny mieścić się w środku spektrum semiwariogramów. Na przykład na poniższej ilustracji niebieskie krzyżyki nie leżą w środku spektrum semiwariogramów (większość leży w górnej części spektrum):
Zamiast niego preferowany powinien być następujący semiwariogram, ponieważ niebieskie krzyżyki leżą w środku spektrum semiwariogramów:
Obliczenia odległości dla danych we współrzędnych geograficznych
Jeśli dane wejściowe są w układzie współrzędnych geograficznych, odległości są obliczane przy użyciu odległości po cięciwie. Odległość po cięciwie między dwoma dowolnymi punktami to odległość w linii prostej łączącej te dwa punkty. Ta linia przechodzi przez Ziemię, a nie wzdłuż jej powierzchni. Aby to sobie zwizualizować, można wyobrazić sobie latarkę świecącą przez przezroczystą sferę. Długość wiązki światła od punktu, w którym światło wpada do sfery, do punktu, w którym z niej wychodzi, to odległość po cięciwie między tymi dwoma punktami. Główną zaletą odległości po cięciwie w porównaniu do odległości geodezyjnej są mniejsze wymagania pod względem obliczeniowym. Ponadto teoria, na której opiera się wykonywanie krigingu na sferoidach, jest stosunkowo ograniczona.
Notatka:
Ponieważ odległości po cięciwie nie są dobrymi przybliżeniami odległości geodezyjnych w przypadku odległości przekraczających 30 stopni dziesiętnych, promień wyszukiwania nie może przekraczać 15 stopni dziesiętnych (wtedy średnica nie może przekraczać 30 stopni) i wszystkie lokalizacje, które nie mają sąsiedztw w obrębie 15 stopni dziesiętnych, będą obliczane jako Brak danych. Ponadto niektóre modele semiwariogramów wymagają dopasowania płaskiej powierzchni do każdego podzbioru w celu wykonania usuwania trendów. Takiej płaszczyzny nie można utworzyć dokładnie w przypadku podzbiorów, których zasięg przekracza 30 stopni dziesiętnych, dlatego zasięg poszczególnych podzbiorów jest ograniczony do 30 stopni dla następujących modeli semiwariogramów:
- Wygładzanie minimalnego zakrzywienia
- Wykładniczy z eliminacją trendów
- Whittle z eliminacją trendów
- K Bessela z eliminacją trendów
W poprzednich wersjach oprogramowania ArcGIS współrzędne geograficzne traktowane były jako współrzędne kwadratowe i obliczana była odległość euklidesowa między punktami. Jednak komórka 1 stopień na 1 stopień nie jest w rzeczywistości kwadratem, dlatego ta odległość byłaby zniekształcona. To zniekształcenie staje się większe przy przemieszczaniu się coraz bardziej na północ lub na południe od równika.
Dodatkowe parametry empirycznego krigingu bayesowskiego
W empirycznym krigingu bayesowskim używane są trzy parametry, które nie występują w innych metodach krigingu:
- Maksymalna liczba punktów w każdym modelu lokalnym — określa liczbę punktów w każdym podzbiorze. Im większa jest wielkość podzbioru, tym dłużej wykonywane są obliczenia w EKB.
- Współczynnik nakładania obszaru modelu lokalnego — określa stopień nakładania się podzbiorów. Każdy punkt wejściowy może należeć do kilku podzbiorów, a współczynnik nakładania określa średnią liczbę podzbiorów, do których będzie należeć każdy punkt. Na przykład współczynnik nakładania 1,5 oznacza, że około połowa punktów będzie używana w jednym podzbiorze, a połowa w dwóch podzbiorach. Większa wartość współczynnika nakładania sprawia, że powierzchnia wynikowa jest gładsza, ale także wydłuża czas przetwarzania.
- Liczba symulowanych semiwariogramów — określa liczbę semiwariogramów, które będą symulowane dla każdego podzbioru. Więcej symulacji sprawia, że prognozy są bardziej precyzyjne, ale czas przetwarzania również się zwiększa.
Odniesienia
- Chilès J-P. i Delfiner P. (1999): Rozdział 4 publikacji Geostatistics: Modeling Spatial Uncertainty. Nowy Jork: John Wiley & Sons, Inc.
- Krivoruchko K. (2012). „Empirical Bayesian Kriging”. ArcUser Fall 2012.
- Krivoruchko K. (2012). „Modeling Contamination Using Empirical Bayesian Kriging”. ArcUser Fall 2012.
- Krivoruchko K. i Gribov A. (2014). „Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data”. Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences. Springer 2014, s. 61–64.
- Krivoruchko K. i Gribov A. (2019). „Evaluation of empirical Bayesian kriging”, Spatial Statistics Tom 32. https://doi.org/10.1016/j.spasta.2019.100368.
- Pilz J. i G. Spöck (2007). „Why Do We Need and How Should We Implement Bayesian Kriging Methods”. Stochastic Environmental Research and Risk Assessment 22 (5):621–632.