Funzionamento degli strumenti delle statistiche zonali

Disponibile con ArcGIS Image for ArcGIS Online.

Un'operazione di statistiche zonali calcola le statistiche sui valori cella di un raster (un raster di valore) all'interno delle zone definite da un altro dataset. Gli strumenti per calcolare le statistiche per zona sono due: Statistiche zonali e statistiche zonali come tabella.

Lo strumento Statistiche zonali calcola una statistica alla volta e crea un output raster. Questo valore diventa il valore della cella dell'output raster per le celle corrispondenti a quella zona. Se una feature zona contiene zone sovrapposte, la statistica è calcolata solo per una zona poiché nel raster di output una cella può rappresentare solo un valore.

Lo strumento Statistiche zonali come tabella calcola una o più statistiche utilizzando sottoinsiemi predefiniti oppure tutte le statistiche e crea un output tabella. Come per le Statistiche zonali la statistica risultante è un valore singolo per ciascuna zona. Nella tabella di output è riportato un record per zona e i valori statistici sono riportati in campi predefiniti. Se l'input della zona è una feature e contiene zone sovrapposte, le statistiche sono calcolate per tutte le zone e l'output è indicato in singoli record per ogni zona.

Il layer della zona di input definisce la forma, i valori e le posizioni delle zone che possono essere raster o feature. Durante l'operazione zonale, i dati feature sono prima convertiti in un raster. Nei dati raster, una zona è rappresentata da tutte le celle con lo stesso valore, indipendentemente dalla loro contiguità. Ogni zona deve avere un'identità unica è se è un raster, deve avere un tipo di dati intero. Si può specificare un numero intero o campo stringa di valori unici nell'input di zona per definire le zone.

Il raster del valore di input contiene i valori usati per calcolare la statistica di output per ciascuna zona. Può essere di tipo intero o con dati float.

Nell'illustrazione seguente è identificata la media dell'input di valore per ciascuna zona:

Esempio di input e output delle statistiche zonali
È illustrato un esempio di input e output delle statistiche zonali Le celle grigio chiaro rappresentano i NoData.

Identificazione di celle in un raster valore per una zona raster

Per calcolare una statistica, lo strumento estrae prima i valori cella dal raster valore per tutte le celle che rientrano in ciascuna zona. L'identificazione di celle in un raster valore all'interno di una zona avviene sovrapponendo zone sul raster valore. Quando gli input di zona e di valore sono entrambi raster di dimensione cella identica e le celle sono allineate, vengono estratti i valori cella del raster valore che è sovrapposto a quello delle zone e vengono calcolate le statistiche.

Un raster zona sovrapposto al raster valore illustrato con le celle estratte, evidenziate
Un raster zona sovrapposto al raster valore illustrato con le celle estratte, evidenziate.

Quando la dimensione cella o l'allineamento del raster zona sono differenti da quello del raster valore, le celle tra la zona e i raster valore non possono essere sovrapposte perfettamente tra loro. Lo strumento regola internamente uno o entrambi i raster per ottenere la sovrapposizione perfetta. La regolazione avviene seguendo alcune semplici regole. Quando la dimensione della cella del raster zona e il raster valore sono differenti, la dimensione della cella di output sarà il valore Massimo di Input, e il raster valore sarà usato come lo snap raster internamente. Se la dimensione della cella è la stessa ma le celle non sono allineate, il raster valore sarà usato come lo snap raster internamente. Ognuno di questi casi innescherà un ricampionamento interno prima che venga eseguita l'operazione zonale.

Identificazione di celle in un raster valore per una zona feature

Un'operazione zonale fondamentalmente è un'analisi raster effettuata su due raster, in cui uno è la zona e l'altro è il valore. Se le zone sono definite da feature, avviene una conversione da feature interna a raster. La conversione interna per una zona poligono utilizza il metodo del centro cella nello strumento Converti feature a raster per rasterizzare l'input utilizzando la dimensione cella e lo snap raster del raster valore.Ciò può determinare un risultato inatteso di zone mancanti nell'output quando nessuno dei centri cella della griglia di rasterizzazione rientra nella zona feature. Tale condizione può verificarsi con zone che sono più piccole dell'area di una cella del raster di zona interna ma anche con zone più ampie.

Nel seguente esempio, figura (1) rappresenta la zona della feature di input, il raster del valore di input, e il suo centro cella. Le feature di input hanno tre zone (forme gialle) in cui è vero quanto segue:

  • zone1 è più grande di una singola cella.
  • zone2 e zone3 sono più piccoli di una cella.
  • Un centro cella non rientra in zone2 ma in zone3.

Durante il processo di rasterizzazione zona in figura (2), dal momento che nessuno dei centri cella rientra in zone1 e zone2, solo zone3 è rasterizzata e le altre due zone sostanzialmente scompaiono.

Conversione interna di zona feature durante il calcolo delle statistiche zonali
È mostrata la conversione interna di una zona feature mentre si calcolano le statistiche zonali.

Per evitare che dall'output scompaiono le zone, accertarsi che ogni zona contenga uno o più centri cella del raster valore. Un modo per procedere in tal senso è creare più centri cella specificando una dimensione cella più piccola nell'ambiente. Per impostazione predefinita, la dimensione cella di analisi è quella del raster valore. Tuttavia, specificando una dimensione cella nell'ambiente di analisi più piccola di quella del raster valore, sarà possibile acquisire più zone, come dimostra la precedente figura (3). Tenere a mente che specificando una dimensione cella più piccola si genera un raster di output più ampio. L'output di risoluzione più alto non necessariamente sarà un risultato di elevata qualità come sembra, dal momento che il dettaglio aggiuntivo in realtà non esiste nel raster valore di input.

Una volta che una zona feature è convertita in una zona raster utilizzando la stessa dimensione cella e lo stesso allineamento cella del raster valore, l'estrazione di celle da un valore raster all'interno di una zona avviene sovrapponendo le zone al raster valore.

Calcolo di statistiche aritmetiche e circolari

Il calcolo di una media sommando tutti i valori cella e dividendo per il numero di celle può funzionare con dati come l'elevazione. Tuttavia, se i dati rappresentano quantità cicliche come aspetto (direzione bussola da 0 gradi su 360 gradi in gradi) od ore del giorno (da 0 a 24 ore), il calcolo della media aritmetica produrrà un output errato, perché il valore minimo e il valore massimo rappresentano la stessa quantità. Per questo tipo di dati si dovrebbero calcolare le statistiche circolari.

Per esempio nel calcolo della media di due valori di cella, 0 gradi e 360 gradi la media aritmetica corrisponderà a 180 gradi. Si tratta di un risultato sbagliato perché 0 gradi e 360 gradi rappresentano la stessa direzione della bussola. La statistica corretta può essere ottenuta calcolando la media circolare, che sarà 0 gradi.

Si può specificare il calcolo delle statistiche circolari selezionando il parametro Calcola statistiche circolari (circular_calculation = "CIRCULAR" in Python.) Nel calcolo delle statistiche circolari prestare attenzione ai valori più bassi e a quelli più alti per rappresentare i dati ciclici. Il valore più basso si suppone sia 0. Il valore più alto può essere specificato come il parametro Valore di avvolgimento circolare (circular_wrap_value in Python). Il valore predefinito per questo parametro è 360.

In base al tipo di dati, selezionare il tipo di calcolo statistico e un valore di avvolgimento circolare appropriato per statistiche circolari, per ottenere l'output corretto. Sono supportate le seguenti statistiche circolari: Media, Maggioranza, Minoranza, Deviazione standard, e Varietà.

Calcolo delle statistiche zonali con raster multidimensionali

I dati di raster multidimensionali rappresentano i dati in più momenti, profondità o altezze. Questo tipo di dati è comunemente utilizzato nelle scienze atmosferiche, oceanografiche e della terra ed è osservato tramite il monitoraggio di piattaforme, è acquisito dai satelliti o generato da modelli di simulazione numerica in cui i dati sono elaborati, raggruppati o interpolati utilizzando vari metodi statistici.

Gli strumenti Statistiche zonali e Statistiche zonali come tabella supportano i dati di zona multidimensionale e di raster valore come input. Le statistiche zonali sono calcolate per tutte le sezioni di un raster multidimensionale quando il parametro Elabora come multidimensionale è selezionato (ALL_SLICES nel parametro process_as_multidimensional in Python). Se il parametro Elabora come multidimensionale non è selezionato (CURRENT_SLICES in Python), sarà elaborata solo la sezione corrente.

Gli esempi di analisi delle statistiche zonali sui dati multidimensionali includono quanto segue:

  • Un meteorologo desidera approfondire lo spostamento di un uragano e la distribuzione delle precipitazioni lungo il tracciamento dell'uragano per un determinato periodo di tempo. Utilizzando l'elaborazione multidimensionale nello strumento Statistiche zonali, il meteorologo è in grado di trovare la precipitazione media per ogni sezione temporale nelle zone colpite dall'uragano che è cambiata nel tempo.
  • Un ecologista vuole esaminare la distribuzione di eventi estremi partendo dai dati di precipitazione giornaliera massima negli ultimi 30 anni per un determinato bacino fluviale. Durante l'elaborazione come multidimensionale, lo strumento Statistiche zonali come tabella con il tipo di statistica percentuale per un elenco di valori percentuali può essere utilizzato per osservare la distribuzione dei dati delle precipitazioni giornaliere massime per i dati delle serie temporali.

Output multidimensionale delle statistiche zonali

Specificando che lo strumento Statistiche zonali deve elaborare l'input come multidimensionale, lo strumento genererà un output di raster multidimensionale. L'operazione zonale si verifica sezione per sezione tra le sezioni del raster zona e le sezioni della variabile corrente dal valore raster. I valori statistici calcolati sono salvati in una variabile multidimensionale il cui nome è creato combinando il nome variabile del raster valore e la statistica in fase di calcolo. Il numero di dimensioni della variabile di output e il numero di sezioni dipende dalla natura specifica della zona e dagli input del raster valore.

Per Statistiche zonali come tabella, specificando l'elaborazione multidimensionale dei dati si genera un output di tabella banale con le statistiche calcolate per tutte le zone e le sezioni. Questa tabella comprenderà campi aggiuntivi per il nome variabile, i nomi delle dimensioni e i loro valori, nonché le statistiche che sono calcolate per ogni zona.

Dal momento che l'elaborazione multidimensionale avviene sezione per sezione tra raster zona e raster valore, il numero di sezioni nel raster multidimensionale di output dello strumento Statistiche zonali e il numero di record nella tabella di output dello strumento Statistiche zonali come tabella dipende dal tipo dei raster di input e dal numero di sezioni in essi. Nelle seguenti sottosezioni sono riportati alcuni esempi.

Raster zona e valore multidimensionali con le stesse dimensioni

Stabilire la salinità massima a varie profondità dell'oceano per vari intervalli di temperatura a una profondità corrispondente richiede l'esecuzione di statistiche zonali con una zona multidimensionale che rappresenta le zone di temperatura e un raster valore multidimensionale che rappresenta la salinità. L'operazione zonale sarà eseguita per ogni sezione di zona con la sezione corrispondente dal raster valore. Il raster multidimensionale di output avrà lo stesso numero di sezioni del raster valore.

Nell'illustrazione che segue le variabili nei raster zona e nei raster valore hanno le stesse tre dimensioni, x, y e d e lo stesso numero di sezioni in corrispondenza dei valori di dimensione d0, d1, e d2. La variabile nel raster multidimensionale di output avrà le stesse tre dimensioni, x, y e d e lo stesso numero di sezioni in corrispondenza dei valori di dimensione d0, d1, e d2.

Raster zona e valore multidimensionali con le stesse dimensioni
Sono illustrati i raster di input zona e valore multidimensionali, con raster di statistiche zonali risultante.

Il numero totale di record nell'output Statistiche zonali come tabella è stabilito aggiungendo il numero di zone in ogni sezione. Se il numero di zone alle profondità d0, d1, e d2 sono rispettivamente 5, 4, e 3, il numero totale di record sarà 12 (5 + 4 + 3 = 12).

Raster zona e valore multidimensionali con dimensioni differenti

La posizione idonea e la finestra temporale per distribuire risorse come nel caso di veicoli a controllo remoto (ROV) possono essere stabilite eseguendo statistiche zonali con una zona multidimensionale che rappresenta le posizioni potenziali per i ROV in momenti differenti e raster di valore multidimensionale come l'output del modello Hybrid Coordinate Ocean Model (HYCOM) che rappresenta la corrente oceanica a profondità e in momenti differenti.

L'operazione zonale sarà effettuata per ogni sezione del raster zona con ogni sezione del raster valore. Il numero di sezioni nel raster multidimensionale di output è stabilito moltiplicando il numero di sezioni nel raster zona per il numero di sezione nel raster valore.

Nella seguente illustrazione, la variabile nel raster zona è caratterizzata da tre dimensioni, x, y e d e da tre sezioni presso i valori di dimensione, d0, d1 e d2. La variabile nel raster valore è caratterizzata da tre dimensioni, x, y, e t e da due sezioni presso i valori di dimensione, t0 e t1. La variabile nel raster multidimensionale di output avrà quattro dimensioni: x, y, d, e t.

Raster zona e valore multidimensionali con dimensioni differenti
Sono illustrati i raster di input zona e valore multidimensionali, con raster di statistiche zonali risultante.

Il numero totale di sezioni dell'output dello strumento Statistiche zonali è stabilito moltiplicando il numero di profondità nel raster zona e il numero di fasi temporali nel raster valore, che in questo caso sarà uguale a 6 (3 profondità x 2 momenti = 6). Il numero totale di record nell'output Statistiche zonali come tabella è stabilito moltiplicando il numero di zone in ogni sezione. Se il numero di zone è 5, il numero totale di record in questo caso è 30 (5 zone x 3 profondità x 2 momenti = 30).

Solo raster valore multidimensionale

Stabilire la temperatura massima all'interno di ogni contea per ogni giorno dell'anno richiede l'utilizzo di statistiche zonali con un raster valore multidimensionale che rappresenta la temperatura giornaliera e un raster zona che rappresenta le contee. L'operazione zonale sarà effettuata per ogni sezione del raster valore utilizzando lo stesso raster zona. Il raster multidimensionale di output avrà lo stesso numero di sezioni del raster valore.

Nella seguente illustrazione, le variabili nel raster valore sono caratterizzate da tre dimensioni, x, y e d e da tre sezioni presso i valori di dimensione, t0, t1, e t2. La variabile nel raster multidimensionale di output avrà le stesse tre dimensioni, x, y e t e lo stesso numero di sezioni in corrispondenza dei valori di dimensione, t0, t1, et2.

Elaborazione del raster valore multidimensionale
È illustrata l'elaborazione del raster valore multidimensionale.

Il numero totale di record nell'output Statistiche zonali come tabella è stabilito moltiplicando il numero di zone e il numero di sezioni nel raster valore. Se il numero di zone è 5, il numero totale di record in questo caso è 15 (5 x 3 = 15).

Solo raster zona multidimensionale

Il calcolo della media delle precipitazioni massime in dieci anni entro ogni categoria variabile nel tempo di zona di pianura alluvionale con variazioni temporali per pianificazione ecologica del paesaggio richiederà l'utilizzo di statistiche zonali con un raster zona multidimensionale che rappresenta le zone di pianura alluvionale e un raster valore che rappresenta le precipitazioni massime in dieci anni. L'operazione zonale sarà effettuata per ogni sezione del raster zona utilizzando lo stesso raster valore. Il raster multidimensionale di output avrà lo stesso numero di sezioni del raster zona.

Nella seguente illustrazione, le variabili nel raster zona sono caratterizzate da tre dimensioni, x, y e d e da tre sezioni presso i valori di dimensione, t0, t1, e t2. La variabile nel raster multidimensionale di output avrà le stesse tre dimensioni, x, y e t e lo stesso numero di sezioni in corrispondenza dei valori di dimensione, t0, t1, et2.

Elaborazione del raster zona multidimensionale
È illustrata l'elaborazione del raster zona multidimensionale.

Il numero totale di record nell'output Statistiche zonali come tabella è stabilito moltiplicando il numero di zone e il numero di sezioni nel raster zona. Se il numero di zone è 5, il numero totale di record in questo caso è 15 (5 x 3 = 15).

Statistiche

Segue un elenco di statistiche disponibili per il calcolo delle statistiche zonali con dettagli aggiuntivi e un'illustrazione grafica che mostra i risultati per ogni opzione in un input di esempio.

Maggioranza

  • Il valore che si presenta con maggiore frequenza in ogni zona è assegnato a tutte le celle in quella zona.
  • Quando esiste un collegamento per il valore di maggioranza in una zona, l'output per tutte le posizioni cella nella zona è assegnato al minore dei valori collegati.

Esempio:

Illustrazione della maggioranza nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Majority")

Massimo

  • Il valore più alto in ogni zona è assegnato a tutte le celle in quella zona.

Esempio:

Illustrazione del massimo nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Maximum")

Medio

  • La media dei valori in ogni zona è assegnata a tutte le celle di output in quella zona.
  • La formula della media aritmetica è la seguente:

    Formula della media aritmetica

    dove:

    • = media
    • xi = valori osservati
    • N = numero di osservazioni
  • La formula della media circolare è la seguente:

    Formula media circolare

    dove:

    • = media circolare
    • xi = valori osservati
    • N = numero di osservazioni

    Nel caso degenere in cui Σsin xi e Σcos xi sono uguali a zero, si utilizza il valore speciale -1, per indicare che la media circolare non è definita con esattezza.

Esempio:

Illustrazione della media nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Mean")

Mediana

  • Il mediano dei valori in ogni zona è assegnato a tutte le celle di output in quella zona.
  • I valori di tipo statistico sono calcolati utilizzando il metodo Q1 di Hyndman e Fan (1996). Quando due valori scelti sono ugualmente vicini al valore mediano target, si sceglie il minore dei due valori.
  • Per calcolare la mediana si classificano tutte le celle in una zona. Se nella zona ci sono n celle e, n è dispari, il valore medio ((n+1)/2) è assegnato per ogni cella nella zona. Se è presente un numero pari di celle, risulterà il valore (n/2).

Esempio:

Illustrazione della mediana nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Median")

Minimo

  • Il valore più basso in ogni zona è assegnato a tutte le celle in quella zona.

Esempio:

Illustrazione del minimo nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Minimum")

Minoranza

  • Il valore che si presenta con minore frequenza in ogni zona è assegnato a tutte le celle in quella zona.
  • Quando esiste un collegamento per il valore di minoranza in una zona, l'output per tutte le posizioni cella nella zona è assegnato al minore dei valori collegati.

Esempio:

Illustrazione della minoranza nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Minority")

Percentile

  • La percentuale dei valori in ogni zona è assegnata a tutte le celle di output in quella zona.
  • Il valore di tipo statistico è calcolato utilizzando il metodo Q1 di Hyndman e Fan (1996). Quando due valori scelti sono ugualmente vicini al valore mediano target, si sceglie il minore dei due valori.
  • Per calcolare la percentuale, tutte le celle in un raster valore sono classificate utilizzando la seguente formula.R = P/100 x (n - 1) +1 in cuiP è la percentuale desiderata e n è il numero di celle

Esempio:

Illustrazione della percentuale nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Percentile")

Intervallo

  • La differenza tra i valori massimo e minimo in ogni zona è assegnata a tutte le celle in quella zona.
  • L'intervallo è definito nel seguente modo:
    Intervallo zonale = Massimo zonale - Minimo zonale

Esempio:

Illustrazione intervallo statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Range")

Deviazione standard

  • La deviazione standard dei valori in ogni zona è assegnata a tutte le celle in quella zona.
  • La formula per la deviazione standard aritmetica è la seguente:

    Formula deviazione standard

    dove:

    • σ = deviazione standard
    • xi = valori osservati
    • = media
    • N = numero di osservazioni
    Nota:

    La deviazione standard è calcolata sull'intera popolazione (il metodo N), non stimata basandosi su un campione (il metodo N-1). Per confronto, il calcolo della deviazione standard equivale al metodo DEV.ST.POP.VALORI, non DEV.ST, in Microsoft Excel.

  • La formula per la deviazione standard, circolare è la seguente:

    Formula deviazione standard circolare

    dove:

    • σ = deviazione standard circolare
    • = lunghezza media risultante del vettore a

      In un campione di n angoli espressi in gradi, sono riepilogati gli angoli di a1, a2, …, an e ciascun angolo è rappresentato da un vettore unitario Vettore a rivolto nella direzione della corrispondente osservazione.

Esempio:

Illustrazione della deviazione standard nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "STD")

Somma

  • La somma di tutti i valori cella in ogni zona è assegnata a tutte le celle in quella zona.
  • Il tipo di dati del raster di output è a virgola mobile. Questo perché il valore della somma tende a essere molto ampio e potrebbe non essere possibile rappresentarlo con un calore intero.

    Si consideri per esempio una zona composta da 2500 righe e colonne di celle e in cui il valore di ogni cella è 1000 . La somma per tale zona sarebbe 2500 x 2500 x 1000 = 6,25 miliardi. Se è richiesto un output intero e l'intervallo è compreso in ± 2,147 miliardi, si può applicare lo strumento Int.

Esempio:

Illustrazione della somma nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Sum")

Varietà

  • Il numero di valori unici in ogni zona è assegnato a tutte le celle in quella zona

Esempio:

Illustrazione della varietà nelle statistiche zonali
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Variety")

Tipo di dato di output

Il tipo di dati di output (interi o con virgola mobile) è determinato sia mediante il calcola zonale in corso che con il tipo raster valore di input. La seguente tabella identifica i tipi di dati previsti del raster di output:

StatisticaTipo di input valoreOutput

Maggioranza

Intero*

Intero

Massimo

Intero, virgola mobile

Uguale a valore

Medio

Intero, virgola mobile

Virgola mobile

Mediana

Intero, virgola mobile

Intero

Minimo

Intero, virgola mobile

Uguale a valore

Minoranza

Intero*

Intero

Percentile

Intero, virgola mobile

Intero

Intervallo

Intero, virgola mobile

Uguale a valore

Deviazione standard

Intero, virgola mobile

Virgola mobile

Somma

Intero, virgola mobile

Virgola mobile

Varietà

Intero*

Intero

Tipi di input e output per statistica
Nota:

*È supportato solo valore intero.

Se una posizione cella nel dataset Zona è NoData, a tale posizione nell'output sarà assegnato NoData.

Riferimenti

Rob J. Hyndman and Yanan Fan (1996) "Sample Quantiles in Statistical Packages" The American Statistician, Vol. 50, N. 4 (Nov., 1996), pagg. 361-365.