Como funcionam as ferramentas de estatística zonal—ArcGIS Online

Uma operação de estatística zonal é aquela que calcula estatísticas sobre valores de células de um raster (um raster de valor) dentro das zonas definidas por outro conjunto de dados. As ferramentas que calculam estatísticas por zonas são Estatística Zonal e Estatística Zonal como Tabela.

A ferramenta Estatística Zonal calcula uma estatística por vez e cria uma saída de raster. Este valor torna-se o valor da célula da saída raster para as células correspondentes a essa zona. Se uma feição de zona tiver zonas sobrepostas, a estatística será calculada para apenas uma zona, pois uma célula no raster de saída pode representar apenas um valor.

A ferramenta Estatística Zonal como Tabela calcula uma ou várias estatísticas usando subconjuntos pré-definidos, ou todas as estatísticas e cria uma saída de tabela. Assim como na Estatística Zonal, a estatística resultante é um valor único para cada zona. Há um registro por zona na tabela de saída e os valores estatísticos são relatados em campos pré-definidos. Se a entrada da zona for uma feição e tiver zonas sobrepostas, as estatísticas serão calculadas para todas as zonas e a saída será relatada em registros individuais para cada zona.

A camada de zona de entrada define a forma, os valores e as localizações das zonas, que podem ser raster ou feição. Durante a operação zonal, os dados de feição são primeiro convertidos em um raster. Nos dados raster, uma zona são todas as células que têm o mesmo valor, sejam elas contíguas ou não. Cada zona deve ter uma identidade única e se for um raster, deve ter um tipo de dados inteiro. Qualquer campo inteiro ou string de valores únicos na entrada da zona pode ser especificado para definir as zonas.

O raster do valor de entrada contém os valores usados no cálculo da estatística de saída para cada zona. Pode ser do tipo de dados inteiro ou flutuante.

Na ilustração a seguir, a média da entrada do valor é identificada para cada zona:

Exemplos de entradas e saídas da estatística zonal são mostrados. Células cinza claro representam NoData.

Como as células em um raster de valor são identificadas para uma zona de raster

Para calcular uma estatística, a ferramenta primeiro extrai valores de célula do raster de valor para todas as células que se enquadram em cada zona. Essa identificação de células em um raster de valor dentro de uma zona é feita sobrepondo zonas no raster de valor. Quando as entradas de zona e valor são rasters do mesmo tamanho de célula e as células estão alinhadas, os valores das células do raster de valor que se sobrepõe aos das zonas são extraídos e as estatísticas são calculadas.

Um raster de zona sobreposto ao raster de valor mostrando as células extraídas destacadas.

Quando o tamanho da célula ou o alinhamento do raster de zona é diferente daquele do raster de valor, as células entre os rasters de zona e de valor não podem ser perfeitamente sobrepostas umas às outras. A ferramenta então ajusta um ou ambos os rasters para obter a sobreposição perfeita de células. Este ajuste é feito seguindo algumas regras simples. Quando o tamanho da célula do raster de zona e do raster de valor for diferente, o tamanho da célula de saída e o raster de ajuste serão determinados internamente pelo raster de valor. Se o tamanho da célula for o mesmo, mas as células não estiverem alinhadas, o raster de valor será usado como raster de ajuste internamente. Qualquer um desses casos causará uma reamostragem interna antes que a operação zonal seja executada.

Como as células em um raster de valor são identificadas para uma zona de feição

Uma operação zonal é fundamentalmente uma análise raster realizada em dois rasters, no qual um é a zona e o outro é o valor. Se as zonas forem definidas por feições, ocorrerá uma conversão interna de feições para raster. A conversão interna para uma zona de polígono usa o método do centro da célula na ferramenta Converter Feição para Raster para rasterizar a entrada usando o tamanho da célula e o raster de ajuste do raster de valor.Isso pode levar a um resultado inesperado de zonas ausentes na saída quando nenhum dos centros de célula da grade de rasterização cai dentro da zona de feição. Isso pode ocorrer com zonas menores que a área de uma célula do raster de zona interna, como também, com zonas maiores.

No exemplo abaixo, a figura (1) representa a zona de feição de entrada, o raster de valor de entrada e seu centro de célula. As feições de entrada têm três zonas (formas amarelas), nas quais o seguinte é verdadeiro:

zone1 é maior do que uma célula individual.
zone2 e zone3 são menores que uma célula.
Um centro de célula cai fora de zone2, mas dentro de zone3.

Durante o processo de rasterização de zona na figura (2), como nenhum centro de célula cai dentro da zone1 e zone2, apenas a zona 3 é rasterizada, e as outras duas zonas essencialmente desaparecem.

A conversão interna de zona da feição ao calcular a estatística zonal — A conversão interna de uma zona da feição ao calcular a estatística zonal é mostrada.

Para evitar que as zonas desapareçam da saída, certifique-se que cada zona contenha um ou mais centros de célula do raster de valor. Uma maneira de fazer isso é criar mais centros de célula especificando um tamanho de célula menor no ambiente. Por padrão, o tamanho da célula de análise é o do raster de valor. No entanto, se você especificar um tamanho de célula no ambiente de análise menor do que o raster de valor, permitirá que mais zonas sejam capturadas, como demonstra a figura (3) acima. Lembre-se que especificar um tamanho de célula menor gerará um raster de saída maior. A saída de resolução mais alta não será necessariamente um resultado de alta qualidade como parece, já que o detalhe adicional não existe realmente no raster de valor de entrada.

Após uma zona de feição ser convertida em uma zona de raster usando o mesmo tamanho de célula e alinhamento de célula do raster de valor, a extração de células de um raster de valor dentro de uma zona será feita sobrepondo as zonas no raster de valor.

Calcular estatísticas aritméticas e circulares

Calcular uma média somando todos os valores de célula e, em seguida, dividindo pelo número de células pode funcionar com dados como elevação. No entanto, se os dados representarem quantidades cíclicas, como aspecto (direção da bússola de 0 graus a 360 graus) ou horas de um dia (0 a 24 horas), o cálculo da média aritmética produzirá uma saída incorreta, pois o valor mínimo e o valor máximo representam a mesma quantidade. Para esse tipo de dados, você deve calcular estatísticas circulares.

Por exemplo, se você estiver calculando a média de dois valores de célula, 0 graus e 360 graus, a média aritmética será de 180 graus. Isso é incorreto, pois 0 graus e 360 graus representam a mesma direção da bússola. As estatísticas corretas podem ser obtidas calculando a média circular, que será 0 grau.

Você pode especificar o cálculo de estatísticas circulares selecionando o parâmetro Calcular Estatísticas Circulares (circular_calculation = "CIRCULAR" no Python). Ao calcular estatísticas circulares, preste atenção aos valores mais baixos e mais altos para representar os dados cíclicos. O valor mais baixo é assumido como 0. O valor mais alto pode ser especificado como o parâmetro Valor de Quebra Circular (circular_wrap_value in Python). O padrão para este parâmetro é 360.

Dependendo do tipo de dados, selecione o tipo de cálculo de estatística e um valor de quebra circular apropriado para estatísticas circulares, para obter a saída correta. As seguintes opções de estatísticas circulares estão disponíveis: Média, Maioria, Minoria, Desvio Padrão e Variedade.

Calcular estatística zonal com rasters multidimensionais

Os dados raster multidimensionais representam dados em vários momentos e em várias profundidades ou alturas. Este tipo de dados é comumente usado em ciências atmosféricas, oceanográficas e terrestres e é observado por plataformas de monitoramento, capturados por satélites ou gerados a partir de modelos de simulação numérica onde os dados são processados, agregados ou interpolados usando várias técnicas estatísticas.

As ferramentas Estatística Zonal e Estatística Zonal como Tabela suportam dados raster de valor e zona multidimensional como entrada. As estatísticas zonais são calculadas para todas as partes de um raster multidimensional quando o parâmetro Processar como Multidimensional é marcado (ALL_SLICES no parâmetro process_as_multidimensional no Python). Se o parâmetro Processar como Multidimensional estiver desmarcado (CURRENT_SLICES no Python), apenas a parte atual será processada.

Exemplos da análise de estatística zonal em dados multidimensionais incluem o seguinte:

Um meteorologista deseja obter informações sobre o movimento do furacão e a distribuição da precipitação ao longo da trajetória do furacão em um determinado período. Usando processamento multidimensional na ferramenta Estatística Zonal, o meteorologista pode encontrar a precipitação média para cada parte do tempo para as zonas de furacões que mudaram ao longo do tempo.
Um ecologista deseja determinar a distribuição de eventos extremos a partir do máximo de dados diários de precipitação dos últimos 30 anos para uma determinada bacia hidrográfica. A ferramenta Estatística Zonal como Tabela com o tipo de estatística de percentil para uma lista de valores de percentil pode ser usada para localizar a distribuição do máximo de dados diários de precipitação para os dados da série temporal ao processar como multidimensional.

Saída multidimensional da estatística zonal

Quando você especificar que a ferramenta Estatística Zonal deve processar a entrada como multidimensional, a ferramenta criará uma saída raster multidimensional. A operação zonal ocorre parte por parte entre as partes do raster de zona e as partes da variável atual do raster de valor. Os valores estatísticos calculados são armazenados em uma variável multidimensional cujo nome é criado combinando o nome da variável do raster de valor e a estatística que está sendo calculada. O número de dimensões da variável de saída e o número de partes dependem da natureza específica das entradas do raster de valor e zona.

Para a ferramenta Estatística Zonal como Tabela, quando você especificar que os dados devem ser processados como multidimensionais, ela gerará uma saída de tabela plana com as estatísticas calculadas para todas as zonas e partes. Esta tabela incluirá campos adicionais para indicar o nome da variável, os nomes das dimensões e seus valores e as estatísticas que serão calculadas para cada zona.

Como o processamento multidimensional ocorre parte por parte entre os rasters de valor e zona, o número de partes no raster multidimensional de saída da ferramenta Estatística Zonal e o número de registros na tabela de saída da ferramenta Estatística Zonal como Tabela dependerão do tipo de rasters de entrada e número de partes neles. As subseções a seguir descrevem exemplos.

Rasters de valor e zona multidimensional com as mesmas dimensões

Encontrar a salinidade máxima em várias profundidades do oceano para várias faixas de temperatura em uma profundidade correspondente exigirá a realização de estatísticas zonais com uma zona multidimensional representando zonas de temperatura e um raster de valor multidimensional representando a salinidade. A operação zonal será executada para cada parte de zona com a parte correspondente do raster de valor. O raster multidimensional de saída terá o mesmo número de partes que o raster de valor.

Na ilustração abaixo, as variáveis nos rasters de valor e zona têm as mesmas três dimensões, x, y e d, e o mesmo número de partes nos valores de dimensão d₀, d₁ e d₂. A variável no raster multidimensional de saída também terá as mesmas três dimensões, x, y e d, e o mesmo número de partes nos valores de dimensão d₀, d₁ e d₂.

Rasters de valor e zona multidimensional com as mesmas dimensões — Rasters de entrada de valor e zona multidimensional com as mesmas dimensões, com o raster de estatística zonal resultante, são mostrados.

O número total de registros na saída da ferramenta Estatística Zonal como Tabela é determinado pela adição do número de zonas em cada parte. Se o número de zonas nas profundidades d₀, d₁ e d₂ forem 5, 4 e 3, respectivamente, o número total de registros será 12 (5 + 4 + 3 = 12).

Rasters de valor e zona multidimensional com diferentes dimensões

Um local adequado e uma janela de tempo para implantar ativos, como veículos operados remotamente (ROVs), podem ser determinados realizando estatísticas zonais com uma zona multidimensional representando potenciais locais para ROVs em diferentes momentos e raster de valor multidimensional, como a saída do modelo Hybrid Coordinate Ocean Model (HYCOM ) que representa a corrente oceânica em diferentes profundidades e tempos.

A operação zonal será realizada para cada parte do raster de zona com cada parte do raster de valor. O número de partes no raster multidimensional de saída é determinado pela multiplicação do número de partes no raster de zona pelo número de partes no raster de valor.

Na ilustração abaixo, a variável no raster de zona tem três dimensões, x, y e d, e três partes em valores de dimensão, d₀, d₁ e d₂. A variável no raster de valor tem três dimensões, x, y e t, e duas partes em valores de dimensão, t₀ e t₁. A variável no raster multidimensional de saída também terá quatro dimensões: x, y, d e t.

Rasters de valor e zona multidimensional com diferentes dimensões — Rasters de entrada de valor e zona multidimensional de diferentes dimensões, com o raster de estatísticas zonais resultante, são mostrados.

O número total de partes na saída da ferramenta Estatística Zonal é determinado pela multiplicação do número de profundidades no raster de zona pelo número de intervalos de tempo no raster de valor, que neste caso, será 6 (3 profundidades x 2 vezes = 6 O número total de registros na saída da ferramenta Estatística Zonal como Tabela é determinado pela multiplicação do número de zonas em cada parte. Se o número de zonas for 5, o número total de registros neste caso será 30 (5 zonas x 3 profundidade x 2 vezes = 30).

Somente raster de valor multidimensional

Encontrar a temperatura máxima em cada condado para cada dia do ano exigirá a realização de estática zonal com um raster de valor multidimensional representando a temperatura diária e um raster de zona representando condados. A operação zonal será realizada para cada parte do raster de valor usando o mesmo raster de zona. O raster multidimensional de saída terá o mesmo número de partes que o raster de valor.

Na ilustração abaixo, as variáveis no raster de valor tem três dimensões, x, y e t, e três partes em valores de dimensão, t₀, t₁ e t₂. A variável no raster multidimensional de saída também terá as mesmas três dimensões, x, y e t, e o mesmo número de partes em valores de dimensão, t₀, t₁ e t₂.

Processamento do raster de valor multidimensional — O processamento do raster de valor multidimensional é mostrado.

O número total de registros na saída da ferramenta Estatística Zonal como Tabela é determinado pela multiplicação do número de zonas e o número de partes no raster de valor. Se o número de zonas for 5, o número total de registros será 15 (5 x 3 =15).

Somente raster de zona multidimensional

Encontrar a média da precipitação máxima decadal dentro de cada categoria da zona de várzea variando no tempo que muda ao longo do tempo para o planejamento ecológico da paisagem exigirá a realização de estática zonal com um raster de zona multidimensional representando zonas de várzea e um raster de valor representando a precipitação máxima decadal. A operação zonal será realizada para cada parte do raster de zona usando o mesmo raster de valor. O raster multidimensional de saída terá o mesmo número de partes que o raster de zona.

Processamento do raster de zona multidimensional — O processamento do raster de zona multidimensional é mostrado.

O número total de registros na saída da ferramenta Estatística Zonal como Tabela é determinado pela multiplicação do número de zonas pelo número de partes no raster de zona. Se o número de zonas for 5, o número total de registros será 15 (5 x 3 =15).

Estatística

Os tipos de estatísticas disponíveis para computar estatísticas zonais estão listados abaixo com detalhes adicionais e uma ilustração gráfica mostrando os resultados para cada opção em uma entrada de exemplo.

Maioria

O valor que ocorre com mais frequência em cada zona é atribuído a todas as células dessa zona.
Quando há um empate para o valor de maioria em uma zona, a saída para todas as localizações de células na zona é atribuída ao menor dos valores empatados.

Exemplo:

Ilustração de Maioria da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "MAJORITY")

Contagem da maioria

A contagem do valor que ocorre com mais frequência em cada zona é atribuído a todas as células dessa zona.

Porcentagem da maioria

A porcentagem da contagem do valor que ocorre com mais frequência em cada zona é atribuído a todas as células dessa zona.

Máximo

O valor mais alto em cada zona é atribuído a todas as células dessa zona.

Exemplo:

Ilustração de Máximo da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "MAXIMUM")

Média

A média dos valores em cada zona é atribuída a todas as células de saída nessa zona.
A fórmula da média aritmética é a seguinte:
Onde:
- x̄ = média
- x_i = valores observados
- N = número de observações
A fórmula da média circular é a seguinte:
Onde:
- x̄ = média circular
- x_i = valores observados
- N = número de observações
No caso degenerado no qual ambos Σsin x_i e Σcos x_i são iguais a zero, o valor -1 espacial é usado, indicando que a média circular não está bem definida.

Exemplo:

Ilustração de Média da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "MEAN")

Mediana

A mediana dos valores em cada zona é atribuída a todas as células de saída nessa zona.
Estes valores do tipo de estatística são calculados usando o método Q1 de Hyndman e Fan (1996). Quando dois valores classificados estão igualmente próximos do valor mediano de destino, o menor dos dois valores é usado.
Para calcular a mediana, todas as células em uma zona são classificadas. Se houver n células na zona e n for ímpar, o valor do meio ((n+1)/2) será gravado em cada célula na zona. Se houver um número par de células, o valor (n/2) será emitido.

Exemplo:

Ilustração de Mediana da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "MEDIAN")

Mínimo

O valor mais baixo em cada zona é atribuído a todas as células dessa zona.

Exemplo:

Ilustração de Mínimo da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "MINIMUM")

Minoria

O valor que ocorre com menos frequência em cada zona é atribuído a todas as células dessa zona.
Quando há um empate para o valor de minoria em uma zona, a saída para todas as localizações de células na zona é atribuída ao menor dos valores empatados.

Exemplo:

Ilustração de Minoria da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "MINORITY")

Contagem da minoria

A contagem do valor menos frequente em cada zona é atribuída a todas as células nessa zona.

Porcentagem da minoria

A porcentagem da contagem do valor menos frequente em cada zona é atribuída a todas as células nessa zona.

Percentil

O percentil dos valores em cada zona é atribuído a todas as células de saída nessa zona.
Este valor do tipo de estatística é calculado usando o método Q1 de Hyndman e Fan (1996) Quando dois valores classificados estão igualmente próximos do valor mediano de destino, o menor dos dois valores é usado.
Para calcular o percentil, todas as células em um raster de valor são classificadas usando a seguinte fórmula: R = P/100 x (n - 1) +1, onde P é o percentil desejado e n é o número de células.

Exemplo:

Ilustração de Percentil da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "PERCENTILE")

Intervalo

A diferença entre os valores máximo e mínimo em cada zona é atribuída a todas as células dessa zona.

O intervalo é definido da seguinte maneira:

Intervalo Zonal = Máximo Zonal - Mínimo Zonal

Exemplo:

Ilustração de Intervalo da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "RANGE")

Desvio padrão

O desvio padrão dos valores em cada zona é atribuído a todas as células de saída nessa zona.
A fórmula para o desvio padrão aritmético é a seguinte:
Onde:
- σ = desvio padrão
- x_i = valores observados
- x̄ = média
- N = número de observações
Anotação:
O desvio padrão é calculado em toda a população (o método N); não estimado com base em uma amostra (o método N-1). Para efeito de comparação, o cálculo do desvio padrão é equivalente ao método STDEVP, não ao método STDEV, no Microsoft Excel.
A fórmula para o desvio padrão circular é a seguinte:
Onde:
- σ = Desvio padrão circular
- R̄ = Comprimento médio resultante de
  Em uma amostra de n ângulos em graus, os ângulos de um ₁, a ₂, …, a _n são resumidos, e cada ângulo é representado por um vetor unitário, que aponta na direção da observação correspondente.

Exemplo:

Ilustração de Desvio Padrão da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "STD")

Soma

A soma de todos os valores de célula em cada zona é atribuído a todas as células dessa zona.
O tipo de dados do raster de saída é ponto flutuante. Isso ocorre, pois o valor da soma tende a ser muito grande e pode não ser possível representá-la com um valor inteiro.
Por exemplo, para uma zona com 2.500 linhas e colunas de células de tamanho, e o valor de cada célula é 1.000, a soma para essa zona seria 2.500 x 2.500 x 1.000 = 6,25 bilhões. Se for necessária uma saída inteira e o intervalo estiver dentro de ± 2,147 bilhões, você poderá aplicar a ferramenta Int.

Exemplo:

Ilustração de Soma da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "SUM")

Variedade

O número de valores únicos em cada zona é atribuído a todas as células dessa zona

Exemplo:

Ilustração de Variedade da Estatística Zonal — OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "VARIETY")

Tipo de Dados de Saída

O tipo de dados de saída (inteiro ou flutuante) é determinado pelo cálculo zonal que está sendo executado e pelo tipo de raster do valor de entrada. A tabela a seguir identifica os tipos de dados esperados do raster de saída:

Tipos de entrada e saída por estatística
Estatística	Tipo do valor de entrada	Saída
Maioria	Inteiro*	Inteiro
Contagem da maioria	Inteiro*	Inteiro
Porcentagem da maioria	Inteiro*	Flutuante
Máximo	Inteiro, Flutuante	Igual ao Valor
Média	Inteiro, Flutuante	Flutuante
Mediana	Inteiro, Flutuante	Inteiro
Mínimo	Inteiro, Flutuante	Igual ao Valor
Minoria	Inteiro*	Inteiro
Contagem da minoria	Inteiro*	Inteiro
Porcentagem da minoria	Inteiro*	Flutuante
Percentil	Inteiro, Flutuante	Inteiro
Intervalo	Inteiro, Flutuante	Igual ao Valor
Desvio padrão	Inteiro, Flutuante	Flutuante
Soma	Inteiro, Flutuante	Flutuante
Variedade	Inteiro*	Inteiro

Anotação:

* Somente valores inteiros são suportados.

Se qualquer localização de célula no conjunto de dados da Zona for NoData, essa localização será atribuída a NoData na saída.

Referências

Rob J. Hyndman and Yanan Fan (1996) "Sample Quantiles in Statistical Packages" The American Statistician, Vol. 50, No. 4 (Nov., 1996), pp. 361-365.

Comentário neste tópico?

Como as células em um raster de valor são identificadas para uma zona de raster

Como as células em um raster de valor são identificadas para uma zona de feição

Calcular estatísticas aritméticas e circulares

Calcular estatística zonal com rasters multidimensionais

Saída multidimensional da estatística zonal

Rasters de valor e zona multidimensional com as mesmas dimensões

Rasters de valor e zona multidimensional com diferentes dimensões

Somente raster de valor multidimensional

Somente raster de zona multidimensional

Estatística

Maioria

Contagem da maioria

Porcentagem da maioria

Máximo

Média

Mediana

Mínimo

Minoria

Contagem da minoria

Porcentagem da minoria

Percentil

Intervalo

Desvio padrão

Anotação:

Soma

Variedade

Tipo de Dados de Saída

Anotação:

Referências

Neste tópico