Cos'è il kriging bayesiano empirico?

Disponibile con ArcGIS Image for ArcGIS Online.

Il kriging Bayesiano empirico (EBK) è un metodo di interpolazione geostatistica che automatizza gli aspetti più difficili della costruzione di un modello di kriging valido. Altri metodi di kriging in Geostatistical Analyst richiedono la regolazione manuale dei parametri per ottenere risultati accurati, ma invece l'EBK calcola automaticamente i parametri attraverso un processo di suddivisione e di simulazione.

Il kriging empirico bayesiano si differenzia da altri metodi di kriging anche per la considerazione dell'errore introdotto dalla stima del semivariogramma sottostante. Altri metodi di kriging calcolano il semivariogramma partendo da posizioni note dei dati e usano questo singolo semivariogramma per fare previsioni in posizioni sconosciute; questo processo assume implicitamente che il semivariogramma stimato sia il vero semivariogramma per la regione di interpolazione. Non tenendo conto dell'incertezza della stima del semivariogramma, altri metodi di kriging sottostimano gli errori standard di previsione.

Il kriging empirico bayesiano è disponibile nella procedura guidata di geostatistica e come strumento di geoprocessing.

Vantaggi e svantaggi

Il kriging bayesiano empirico presenta una serie di vantaggi e svantaggi rispetto ad altri metodi di interpolazione.

Vantaggi

  • Richiede una modellazione interattiva minima.
  • Gli errori di previsione standard sono più accurati rispetto ad altri metodi di rigidità.
  • Consente previsioni accurate di dati moderatamente non stazionari.
  • Più preciso di altri metodi di kriging per piccoli insiemi di dati.

Svantaggi

  • Il tempo di elaborazione aumenta rapidamente all'aumentare del numero di punti di input, delle dimensioni del sottoinsieme o del fattore di sovrapposizione. L'applicazione di una trasformazione aumenta il tempo di elaborazione, in particolare se si sceglie K-Bessel o K-Bessel Detrended per il tipo di modello semivariogramma. Questi parametri sono descritti nelle seguenti sezioni dell'argomento.
  • L'elaborazione è più lenta rispetto ad altri metodi di kriging, soprattutto quando si esegue l'output su raster.
  • Il cokriging e le correzioni anisotropiche non sono disponibili.
  • La trasformazione del Log empirico è particolarmente sensibile ai valori anomali. Se si utilizza questa trasformazione con dati che contengono valori anomali, è possibile che le previsioni siano di ordini di grandezza maggiori o minori rispetto ai valori dei punti di input. Questo parametro è descritto nella sezione Trasformazioni, di seguito.

Stima del semivariogramma

A differenza di altri metodi di kriging (che utilizzano i minimi quadrati ponderati), i parametri del semivariogramma in EBK sono stimati utilizzando la massima verosimiglianza ristretta (restricted maximum likelihood, REML). A causa delle limitazioni computazionali del REML per gli insiemi di dati di grandi dimensioni, i dati di input vengono prima di tutto suddivisi in sottoinsiemi sovrapposti di una dimensione specifica (predefinita a 100 punti per sottoinsieme). In ogni sottoinsieme, i semivariogrammi vengono stimati nel modo seguente:

  1. Un semivariogramma viene stimato dai dati nel sottoinsieme.
  2. Utilizzando questo semivariogramma come modello, i nuovi dati vengono simulati incondizionatamente per tutte le posizioni di ingresso del sottoinsieme.
  3. Un nuovo semivariogramma viene stimato dai dati simulati.
  4. Le fasi 2 e 3 vengono ripetute un numero specifico di volte. In ogni ripetizione, il semivariogramma stimato al punto 1 viene utilizzato per simulare una nuova serie di dati nelle posizioni di ingresso, e i dati simulati vengono utilizzati per la stima di un nuovo semivariogramma.

Questo processo crea un gran numero di semivariogrammi per ogni sottoinsieme e, quando questi vengono tracciati insieme, il risultato è una distribuzione empirica di semivariogrammi ombreggiati dalla densità (più scuro è il colore blu, più semivariogrammi passano attraverso quella regione). Le semivarianze empiriche sono rappresentate da croci blu. Inoltre, la mediana della distribuzione è colorata con una linea rossa solida e il 25° e il 75° percentile sono colorati con linee rosse, come illustrato di seguito.

Semivariogrammi simulati
I semivariogrammi simulati sono mostrati per un sottoinsieme.

Il numero di semivariogrammi simulati per ogni sottoinsieme è predefinito a 100 e ognuno di questi semivariogrammi è una stima del vero semivariogramma per il sottoinsieme.

Per ogni punto di predizione, la predizione viene calcolata utilizzando una nuova distribuzione empirica di semivariogrammi, che viene generata dalla fusione dei singoli semivariogrammi delle distribuzioni di semivariogrammi nelle vicinanze del punto. Ad esempio, se un punto di predizione ha vicini in tre sottoinsiemi (come specificato dalla ricerca del vicinato), la predizione verrà calcolata utilizzando i semivariogrammi simulati di ciascuno dei tre sottoinsiemi. I semivariogrammi di ciascun sottoinsieme sono ponderati in base al numero di vicini con cui contribuiscono alla predizione. In questo modo, i sottoinsiemi che contribuiscono con un maggior numero di vicini hanno una maggiore influenza sul valore previsto.

Quando si esegue il kriging bayesiano empirico nella procedura guidata geostatistica, è possibile vedere i sottoinsiemi utilizzati per calcolare il valore previsto. Nell'immagine in basso, la posizione della predizione è al centro del reticolo sulla superficie di anteprima. Il piccolo cerchio attorno al reticolo è l'area di ricerca e i due grandi poligoni sovrapposte indicano i punti contenuti nei due sottoinsiemi utilizzati per calcolare la previsione. In questo esempio, i punti al centro della mappa sono contenuti in entrambi i sottoinsiemi. È possibile attivare e disattivare queste visualizzazioni poligonali con il pulsante indicato dalla freccia:

Predizione con sottoinsiemi
Le predizioni sono generate da sottoinsiemi vicini.

Modello di kriging

Il kriging bayesiano empirico si differenzia dagli altri metodi di kriging di Geostatistical Analyst per l'utilizzo di una funzione casuale intrinseca come modello di kriging.

Altri modelli di kriging presuppongono che il processo segua una media generale (o una tendenza specificata) con variazioni individuali intorno a questa media. Deviazioni significative vengono riportate indietro verso la media, e in questo modo i valori non si discostano mai di molto. Tuttavia, l'EBK non presuppone una tendenza verso una media generale, quindi è altrettanto probabile che le grandi deviazioni aumentino o diminuiscano. Pertanto, le funzioni casuali intrinseche correggono intrinsecamente le tendenze dei dati.

Modello di semivariogramma

Per una data distanza h, la classificazione empirica bayesiana supporta i seguenti semivariogrammi:

  • Potenza
    • γ(h)= Nugget + b|h|α
  • Lineare
    • γ(h)= Nugget + b|h|
  • Spline piano sottile
    • γ(h)= Nugget + b|h2|*ln(|h|)

Il nugget e b (slope) devono essere positivi e α (power) deve essere compreso tra 0,25 e 1,75. In base a queste restrizioni, i parametri vengono stimati utilizzando il metodo REML. Questi modelli di semivariogramma non hanno un parametro di range o di sill perché le funzioni non hanno un limite superiore.

In EBK, è possibile analizzare la distribuzione empirica delle stime dei parametri, poiché vengono stimati molti semivariogrammi in ogni posizione. Cliccando su Nugget, Slope, oppure Power , verranno mostrae le distribuzioni dei parametri associati. Il grafico seguente mostra le distribuzioni dei parametri dei semivariogrammi per i semivariogrammi simulati mostrati nel grafico precedente:

Distribuzioni di nugget, slope, e power vengono mostrate.
Distribuzioni di nugget, slope, e power

Facendo clic su una posizione diversa della superficie di anteprima, vengono visualizzati la distribuzione del semivariogramma e le distribuzioni dei parametri del semivariogramma per la nuova posizione. Se le distribuzioni non cambiano significativamente nel dominio dei dati, ciò suggerisce che i dati sono globalmente stazionari. Le distribuzioni dovrebbero cambiare in modo uniforme nel dominio dei dati; tuttavia, se si notano grandi cambiamenti nelle distribuzioni su piccole distanze, l'aumento del valore del Fattore di sovrapposizione può attenuare le transizioni delle distribuzioni.

Nota:

Come descritto nella sezione Trasformazioni, l'applicazione di una trasformazione cambia il modello di kriging da una funzione casuale intrinseca a un modello di kriging semplice e diventano disponibili diversi modelli di semivariogramma aggiuntivi.

Trasformazioni

Il kriging bayesiano empirico offre la trasformazione del punteggio normale con skewing moltiplicativo e la scelta di due distribuzioni di base: Empirica e Log Empirica. La trasformazione Log Empirical richiede che tutti i valori dei dati siano positivi e garantisce che tutte le previsioni siano positive. Questo è appropriato per dati come le precipitazioni che non possono essere negativi.

Se viene applicata una trasformazione, viene utilizzato un semplice modello di kriging invece di una funzione casuale intrinseca. A causa di quese modifiche, le distribuzioni dei parametri cambiano in Nugget, soglia parzialee intervallo.

Se Bessel-K oppure Bessel-K con rimozione delle tendenze viene scelto per il tipo di semivariogramma, un grafico aggiuntivo per il parametro forma in Bessel- K verrà mostrato. Una interfaccia aggiuntiva di Trasformazione appare, che mostra la distribuzione delle trasformazioni adattate (una per ogni simulazione). Come accade nell'interfaccia dei Semivariogrammi la distribuzione della trasformazione viene colorata dalla densita, e le linee quantili vengono fornite.

Vengono mostrate le distribuzioni di nugget, soglia parziale, intervallo e trasformazione
Distribuzioni di nugget, soglia parziale, intervallo e trasformazione

Semivariogrammi

Tutti i metodi geostatistici presuppongono l'autocorrelazione spaziale, ovvero che le cose più vicine siano più simili di quelle più lontane, e il semivariogramma definisce come questa somiglianza diminuisca con la distanza. Alcuni semivariogrammi (ad esempio quello esponenziale) presuppongono che la somiglianza diminuisca rapidamente. Il modello del semivariogramma di Whittle, invece, presuppone che la somiglianza diminuisca lentamente. Anche con la stessa pepita, lo stesso intervallo e la stessa soglia, questi due semivariogrammi definiranno la diminuzione della somiglianza in modi nettamente diversi. Il segreto per ottenere risultati affidabili è scegliere il semivariogramma che più si avvicina al comportamento del tuo fenomeno. I modelli di semivariogramma disponibili dipendono dalla scelta della trasformazione.

Se la Trasformazione è impostata su Zero i seguenti modelli di semivariogramma sono disponibili:

  • Alimentazione (default)
  • Lineare
  • Spline piano sottile

Se la Trasformazione è impostata su Empirica o Log Empirica, sono disponibili i seguenti modelli di semivariogramma:

  • Esponenziale (default)
  • Esponenziale senza calcolo delle tendenze
  • Whittle
  • Whittle senza calcolo delle tendenze
  • Bessel K
  • Bessel K senza calcolo delle tendenze

I tre modelli di semivariogramma senza calcolo delle tendenze sono identici alle loro controparti comprendenti il calcolo delle tendenze, tranne per il fatto che verrà applicata una rimozione della tendenza del primo ordine. L'eliminazione del tendenze ha un effetto trascurabile sulla velocità di calcolo.

Vantaggi e svantaggi di ogni modello

Ogni semivariogramma presenta vantaggi e svantaggi. Quando si sceglie un semivariogramma, bisogna tenere conto del tempo di calcolo e della flessibilità del modello (la capacità di adattarsi accuratamente a un'ampia gamma di set di dati):

  • Potenza
    • Vantaggi: relativamente veloce e flessibile. In genere è una scelta sicura che bilancia prestazioni e precisione.
    • Svantaggi: Meno flessibile e più lento di altre scelte.
  • Lineare
    • Vantaggi: molto rapido.
    • Svantaggi: è il modello meno flessibile.
  • Spline piano sottile
    • Vantaggi: molto rapido. Funziona al meglio quando sono presenti tendenze forti.
    • Svantaggi: meno flessibile, particolarmente quando nessuna tendenza è presente.
  • Esponenziale
    • Vantaggi: Offre una trasformazione flessibile. Più veloce di Bessel K e Bessel K con rimozione delle tendenze.
    • Svantaggi: La forma del semivariogramma non è flessibile. Lentezza rispetto a Lineare e spline piano sottile
  • Esponenziale senza calcolo delle tendenze
    • Vantaggi: Offre una trasformazione flessibile. Più veloce di Bessel K e Bessel K con rimozione delle tendenze. Rimuove tendenze di primo ordine.
    • Svantaggi: La forma del semivariogramma non è flessibile. Lentezza rispetto a Lineare e spline piano sottile
  • Whittle
    • Vantaggi: Offre una trasformazione flessibile. Più veloce di Bessel K e Bessel K con rimozione delle tendenze.
    • Svantaggi: La forma del semivariogramma non è flessibile. Lentezza rispetto a Lineare e spline piano sottile
  • Whittle senza calcolo delle tendenze
    • Vantaggi: Offre una trasformazione flessibile. Più veloce di Bessel K e Bessel K con rimozione delle tendenze. Rimuove tendenze di primo ordine.
    • Svantaggi: La forma del semivariogramma non è flessibile. Lentezza rispetto a Lineare e spline piano sottile
  • Bessel K
    • Vantaggi: più flessibile e accurata.
    • Svantaggi: È la più lunga da calcolare.
  • Bessel K senza calcolo delle tendenze
    • Vantaggi: più flessibile e accurata. Rimuove tendenze di primo ordine.
    • Svantaggi: È la più lunga da calcolare.

Scelta di un semivariogramma

La scelta del semivariogramma dovrebbe essere chiara nella maggior parte dei casi, in base ai seguenti criteri:

  • Se vuoi ottenere i risultati più precisi, dovresti scegliere il metodo Bessel K o Bessel K con rimozione delle tendenze. La presenza o l'assenza di tendenze dovrebbe determinare quale.
  • Se hai bisogno di risultati rapidi e sei disposto a sacrificare un po' di precisione, dovresti scegliere Lineare oppure spline piano sottile. Se non c'è una tendenza o se la tendenza è debole, la scelta migliore è Linear.
  • Se hai bisogno di un equilibrio tra precisione e velocità, Power è una buona scelta.
  • Se è necessaria una trasformazione, ma non puoi permetterti di aspettare a lungo per ottenere l'output, dovresti scegliere esponenziale o whittle (o le loro controparti con le tendenze rimosse). Dovresti scegliere quella che corrisponde meglio alle semivarianze empiriche nella procedura guidata geostatistica (descritta di seguito). La Validazione incrociata dovrebbe essere altresì incrociata.

Se stai cercando di scegliere tra esponenziale, Whittle e le loro controparti con rimozione dei trend, dovresti scegliere il semivariogramma che offre il miglior adattamento visivo alle semivarianze empiriche (le croci blu nei grafici sottostanti). Idealmente, le semivariante empiriche dovrebbero cadere nella parte centrale dello spettro del semivariogramma. Ad esempio, nel grafico seguente, le croci blu non cadono al centro dello spettro del semivariogramma (la maggior parte cade verso la parte superiore dello spettro):

Le semivarianze empiriche non si collocano nel mezzo dello spettro
Le semivarianze empiriche non si collocano nel mezzo dello spettro.

Invece, il seguente semivariogramma dovrebbe essere preferito perché le croci blu cadono nel mezzo dello spettro del semivariogramma:

Le semivarianze empiriche si collocano nel mezzo dello spettro.
Le semivarianze empiriche non si collocano nel mezzo dello spettro.

Calcolo della distanza per i dati in coordinate geografiche

Se i dati di input sono in un sistema di coordinate geografiche, le distanze saranno calcolate utilizzando la distanza cordale. La distanza cordale tra due punti qualsiasi è la distanza rettilinea che collega i due punti. Questa linea passerà attraverso la terra piuttosto che lungo la sua superficie. Per visualizzare l'idea, immagina di far brillare una torcia elettrica attraverso una sfera trasparente. La lunghezza del fascio di luce tra il punto in cui la luce entra ed esce dalla sfera è la distanza cordale tra questi due punti. Il vantaggio principale dell'utilizzo della distanza cordale rispetto alla distanza geodetica è che è meno impegnativa dal punto di vista computazionale. Inoltre, la teoria sull'esecuzione del kriging sugli sferoidi è molto limitata.

Nota:

Poiché le distanze cordali non sono una buona approssimazione delle distanze geodetiche per distanze superiori a 30 gradi decimali, il raggio di ricerca non può superare i 15 gradi decimali (quindi il diametro non può superare i 30 gradi) e qualsiasi posizione che non ha vicini entro 15 gradi decimali sarà calcolata come NoData. Inoltre, alcuni modelli di semivariogramma richiedono l'adattamento di un piano piatto a ciascun sottoinsieme per eseguire la rimozione delle tendenze. Questo piano non può essere creato con precisione per i sottoinsiemi la cui estensione supera i 30 gradi decimali, quindi l'estensione dei singoli sottoinsiemi è limitata a 30 gradi per i seguenti modelli di semivariogramma:

  • Spline piano sottile
  • Esponenziale senza calcolo delle tendenze
  • Whittle senza calcolo delle tendenze
  • Bessel K senza calcolo delle tendenze

Le versioni precedenti di ArcGIS trattavano le coordinate geografiche come coordinate quadrate e calcolavano la distanza euclidea tra i punti. Tuttavia, una cella di 1 grado per 1 grado non è in realtà un quadrato, quindi questa distanza sarà distorta. Questa distorsione peggiora man mano che ci si allontana dall'equatore verso nord o verso sud.

Parametri aggiuntivi per il kriging empirico bayesiano

Il kriging empirico bayesiano impiega tre parametri che non compaiono in altri metodi di kriging:

  • Numero di punti massimo in ogni modello locale: specifica il numero di punti in ogni sottoinsieme. Maggiore è la dimensione del sottoinsieme, maggiore sarà il tempo di calcolo dell'EBK.
  • Fattore di sovrapposizione area modello locale: specifica il grado di sovrapposizione fra sottoinsiemi. Ogni punto in ingresso può rientrare in diversi sottoinsiemi e il fattore di sovrapposizione specifica il numero medio di sottoinsiemi in cui rientrerà ogni punto. Ad esempio, un fattore di sovrapposizione di 1,5 significa che circa la metà dei punti sarà utilizzata in un sottoinsieme e la metà in due sottoinsiemi. Un valore più alto del fattore di sovrapposizione rende la superficie di uscita più liscia, ma aumenta anche il tempo di elaborazione.
  • Numero di semivariogrammi simulatiSpecifica il numero di semivariogrammi che verranno simulati per ogni sottoinsieme. Un maggior numero di simulazioni renderà le previsioni più precise, ma aumenterà anche il tempo di elaborazione.

Riferimenti

  • Chilès J-P. e P. Delfiner (1999). Capitolo 4 di Geostatistics: Modeling Spatial Uncertainty. New York: John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging", ArcUser autunno 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging", ArcUser autunno 2012.
  • Krivoruchko K. and Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data", Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, pp. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz J. e G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods", Stochastic Environmental Research and Risk Assessment 22 (5):621-632.